Florian Reichle
Angaben zu den Daten
Das verwendete Dataset des Projekts: https://www.kaggle.com/datasets/gregorut/videogamesales
Dies besteht aus den Daten von https://www.vgchartz.com/ für die Jahre 1980 bis 2016
und umfasst die Folgenden Spalten bzw.Daten.
- Rank - Die Platzierung des Spiels nach Anzahl der Verkäufen
- Name - Der Name des Spiels
- Platform - Die Platform auf der das Spiel veröffentlicht wurde (z.B.
PC,PS4, etc.)
- Year - Das Jahr der Veröffentlichung des Spiels
- Genre - Das Genre des Spiels (z.B. Sport,Action, Puzzle)
- Publisher - Der Publisher des Spiels
- NA_Sales - Die Anzahl der Verkäufe in Nord-Amerika (in
millionen)
- EU_Sales - Die Anzahl der Verkäufe in Europa (in millionen)
- JP_Sales - Die Anzahl der Verkäufe in Japan (in millionen)
- Other_Sales - Die Anzahl der Verkäufe im Rest der Welt (in
millionen)
- Global_Sales - Die Anzahl der Verkäufe Weltweit (in millionen)
Inhaltsverzeichnis
- Releaseanalyse
- Platformanalyse
- Publisheranalyse
- Genreanalyse
- Genreverteilung pro Jahr
- Publisher Genres
- Kritischer Rückblick
Thesen
Bevor wir mit der Analyse der Daten beginnen können Stellen wir
erstmal ein paar Thesen bzw. Fragestellungen auf die wir im laufe des
Projekts hinterfragen bzw beantworten wollen.
Welche Jahre sind die besten in der Anzahl der releasten Games
und Sales? Antwort
Werden heutzutage mehr Spiele Releast und Verkauft als noch 1980?
Antwort
Welche Jahre sind die besten in Anzahl Sales pro Game? Werden
neuere Spiele automatisch mehr Gekauft? Antwort
Welche Plattform ist die beste in Anzahl verkäufen? Welche in
Anzahl der Game Releases? Antwort
Haben Ältere Platformen Automatisch mehr Spiele und Verkäufe? Antwort
Favorisieren verschiedene Regionen verschiedene Platformen?
Verkaufen die Regionenheimischen Platformen automatisch auch die meisten
Spiele? Antwort
Wie Entwickeln sich die Verkäufe pro Platform im laufe der Jahre?
Haben Platformen kurz nach Release den größten “Hype”? Antwort
Bestimmte Publisher häufen sich in Anzahl der Spiele und der
Verkäufen (z.B. Nintendo, EA, Activision Blizzard) Antwort
Gibt es regionale Unterschiede in den Publishern? Werden
Regioneninterne Publisher Favoritisiert? Antwort
Wie sind die Genres der Spiele verteilt? Häufen sich bestimmte
Genres bei Anzahl und Verkaufszahlen? Gibt es Genres die
besser/schlechter Performen als sie sollten? Antwort
Gibt es regionale Unterschiede in den Genres? (Gibt es Regionen
die Spezifische Genres Favorisieren welche in anderen Regionen nur eine
geringe Rolle spielt?) Antwort
Wie haben sich die Genres über die Jahre entwickelt? Antwort
Gibt es Genres die mal großen Einfluss hatten und nun
Bedeutungslos sind? Antwort
Gibt es Publisher die bestimmte Genres bevorzugen bzw. Publisher
deren Games eines bestimmten Genres sich besonders gut Verkaufen? Antwort
Daten und Librarys
Nach dem Vorstellen der Daten und dem aufstellen der initialen Thesen
können wir nun mit dem einlesen der Daten beginnen.
Zusätzlich erstellen wir noch eine Farbpalette und importieren die
Librarys
library(readr)
library(tidyverse)
library(forcats)
library(plotly)
library(knitr, warn.conflicts = FALSE, quietly=TRUE)
library(RColorBrewer)
library(stringr)
library(dygraphs)
library(xts)
suppressPackageStartupMessages(library(dplyr))
myPalette <- brewer.pal(10, "Paired")
vgsales <- read_csv("vgsales.csv")
Rows: 16598 Columns: 11
── Column specification ────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Delimiter: ","
chr (5): Name, Platform, Year, Genre, Publisher
dbl (6): Rank, NA_Sales, EU_Sales, JP_Sales, Other_Sales, Global_Sales
ℹ Use `spec()` to retrieve the full column specification for this data.
ℹ Specify the column types or set `show_col_types = FALSE` to quiet this message.
Videospiel releases
Videospiel releases im laufe der Jahre
Releases nach Anzahl
Unsere erste These war “Welche Jahre sind die besten in der Anzahl
der releasten Games und Sales?” Um dieser Fragestellung auf den Grund zu
gehen müssen wir zuerst einmal die Daten der Tabelle vgsales mithilfe
der Funktion group_by(Year) anhand der Jahre Zusammenfassen.
Nun erhalten wir eine nach den Jahren zusammengefasste Tabelle deren
Einträge wir mit der Funktion dplyr::summarize(Anzahl =n())
abzählen und als Wert Anzahl abspeichern. Aufgrund der für diese analyse
Fehlerhaften Daten verwenden wir noch die Funktion filter() um
alle fehlenden Jahreseinträge sowie die Jahre 2020 und 2017
herauszufiltern. Letztere Jahre sind daher fehlerhaft, da der Datensatz
2016 erstellt wurde. Diese Daten speichern wir als data.frame
in der Variable grouped ab. Im Folgenden verwenden wir
ebenjenes data.frame um nur die Einträge Jahr und Anzahl zu selektieren
und in der Variable filtered abzuspeichern. Die erhaltene
Tabelle hat nun zwei Spalten: Jahr und Anzahl. Des Weiteren erstellen
wir zwei weitere Variablen ax und aywelche beide eine
Liste mit nur einem Attribut sind: “Title”. Nun verwenden wir
plot_ly() um mithilfe der type = ‘scatter’ und
mode = ‘lines’ Parameter ein Liniendiagramm zu erstellen.
Außerdem nutzen wir die layout() funktion um einen Titel zu
erstellen, sowie mithilfe unsere beiden Variablen ax und ay die Achsen
zu beschriften.
grouped <- vgsales %>%
group_by(Year) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,Anzahl)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Anzahl"
)
filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>%
layout(title="Anzahl der Spielereleases von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Betrachten wir einmal das entstandene Diagramm. Zwischen 1980 und
1993 sind hier kaum Unterschiede festzustellen und die Schwankungen
können aufgrund der geringen Zahl der Veröffentlichungen (zwischen 14
und 49) vernachlässigt werden. Ab 1993 können wir dann ein stetiges
Wachstum feststellen welches 1998 vorerst den Höchstwert erreicht. In
den Jahren 1999 und 2000 geht die Anzahl erst einmal leicht zurück bevor
sich der Wert bis 2002 von 349 auf 829 mehr als verdoppelt. Bis 2004 ist
wiederum ein leichter Rückgang festzustellen auf welchem ein Stetiges
Wachstum zum Höchstwert von 1428 (2008) sowie 1431 (2009) folgt. Danach
folgt ein extremer und mit Unterbrechung von 2014 (582) und 2015 (614)
stetiger Rückgang in den Release Zahlen auf einen Stand von 344 im Jahr
2016.
Sehen wir uns diese Zahlen einmal genauer an kommt die Frage auf
Woran diese Extremen Zahlen in den Veröffentlichungen zurückzuführen
sind? An diesem Punkt der Analyse können wir nur spekulieren die Spitzen
könnten allerdings an den Veröffentlichungen großer, den Markt
bestimmenden Plattformen wie der PS2/3, der Xbox und den Plattformen von
Nintendo wie Gamecube oder Wii zurückzuführen sein. Hierzu aber später
mehr.
Releases nach Verkaufszahlen
Um dem zweiten Teil der Fragestellung auf den Grund gehen zu können
müssen wir erneut die Daten der Tabelle vgsales mithilfe der Funktion
group_by(Year) anhand der Jahre Zusammenfassen. Nun erhalten
wir wieder die nach den Jahren zusammengefasste Tabelle deren Einträge
wir mit der Funktion dplyr::summarize(gr_sum =
sum(Global_Sales)) zusammenfassen. Dem Aufmerksamen Leser wird
auffallen das hier ein kleiner aber feiner Unterschied zum vorherigen
Aufruf besteht. Statt Anzahl =n() nutzen wir hier gr_sum =
sum(Global_Sales). Diese Funktion summiert alle Werte der Spalte
Global_Sales auf und speichert den den Wert in die Spalte
gr_sum. Aufgrund der für diese analyse weiterhin Fehlerhaften
Daten verwenden wir erneut die Funktion filter() um alle
fehlenden Jahreseinträge sowie die Jahre 2020 und 2017 herauszufiltern.
Diese Daten speichern wir wieder als data.frame in der Variable
grouped ab. Im folgenden verwenden wir ebenjenes data.frame um
nur die Einträge Jahr und gr_sum zu selektieren und in der
Variable filtered abzuspeichern. Die erhaltene Tabelle hat nun
zwei Spalten: Jahr und gr_sum. Desweiteren erstellen wir erneut
die Variablen ax und ay. Nun verwenden wir
plot_ly() um mithilfe der type = ‘scatter’ und
mode = ‘lines’ Parameter ein Liniendiagramm zu erstellen.
Außerdem nutzen wir die layout() funktion um einen titel zu
erstellen, sowie mithilfe unsere beiden Variablen ax und ay die Achsen
zu beschriften.
grouped <- vgsales %>%
group_by(Year) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = " Verkäufe pro Jahr (in mio)"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>%
layout(title="Videospielverkäufe von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Betrachten wir nun das entstandene Diagramm fällt uns zuerst auf,
dass es dem vorherigen recht ähnlich sieht. Dies ist kaum verwunderlich
und stellt keinen nennenswerten Wissensgewinn da. Der wohl
Nenneswerteste unterschied ist das Fehlen des Anstiegs, welcher in der
Anzahl der Gamereleases zum Jahr 2015 festzustellen war. Durch den
direkten Vergleich ist dies allerdings ein guter Zeitpunkt um uns mit
unserer Zweiten These auseinanderzusetzen. “Werden heutzutage mehr
Spiele Releast und Verkauft als noch 1980?”. Diese sehen wir
aufjedenfall bestätigt obwohl Festzustellen ist, dass die besten Jahre
sowohl in verkäufen als auch in der Anzahl die Jahre 2008 und 2009
waren. Dies Wirft natürlich die Frage auf was der Grund für diesen
Verlauf ist und wäre ein Interessanter ansatz für eine weitere Arbeit.
Verkaufszahlen pro Spiel
Die Frage die Wir allerdings beantworten können ist “Werden
neuere Spiele automatisch mehr Gekauft?”. Dafür kombinieren wir die
beiden bereits Verwendeten ansätze. Wir fassen wieder die daten mithilfe
von group_by(Year) anhand der Jahre Zusammen. Die erhaltene
Tabelle fassen wir wieder mit dplyr::summarize(gr_sum =
sum(Global_Sales)) zusammen. Diesmal nutzen wir jedoch eine
kombination aus sum(Global_Sales) und n(). Wir
addieren die Spalte Global_Sales, teilen dies durch die Anzahl
der Einträge und speichern den Wert in die Spalte gamesales
(gamesales = sum(Global_Sales)/n()). Danach filtern wir die
Daten erneut und speichern sie als data.frame in grouped ab.
Diesmal selektieren wie die Einträge der Spalte Jahr sowie
gamesales und speichern sie in der Variable filtered
ab. Zuletzt erstellen wir erneut die Variablen ax und
ay und verwenden plot_ly() um mithilfe der type =
‘scatter’ und mode = ‘lines’ Parameter ein Liniendiagramm
zu erstellen sowie die layout() funktion um einen titel zu
erstellen und mithilfe unsere beiden Variablen ax und ay die Achsen zu
beschriften.
grouped <- vgsales %>%
group_by(Year) %>%
dplyr::summarize(gamesales = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
filtered <- grouped %>% select(Year,gamesales)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Verkäufe pro Spiel"
)
filtered %>%
plot_ly(x = ~Year, y = ~gamesales, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>%
layout(title="Videospielverkäufe pro Spiel von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Sahen sich die beiden Diagramme für Anzahl und Verkaufszahlen noch
recht ähnlich stellt sich hier ein deutlich unterschiedlicher Verlauf
da. Ist der Wert zwischen 1980 (1.26) und 1983 (0.98) noch relativ
gering steigt dieser Massiv für die Jahre 1984(3.59) und 1985(3.85)
bevor er 1986(1.76) und 1987(1.35) wieder absinkt. Genauso schnell wie
der wert abgesunken ist steigt er allerdings auch wieder auf 3.14(1988)
bevor er 1989 den Höchststand mit 4.32 erreicht. Danach sinkt der wieder
ab um sich nach einem kurzen ausschlag 1992 in den Jahren bis 2014 auf
einen relativ stetigen Wert Zwischen 0.5 und 0.7 einzupendeln erst 2015
und 2016 sinkt dieser unter 0.5. Diese Extremen ausschläge in den
Früheren Jahren lassen sich mit der Geringen anzahl der Spiele erklären.
Einzelne gute laufende Spiele machen hier noch einen Großteil des Markts
aus wohingegen sich neuere spiele, sowohl gegen eine Großzahl von
bereits etablierten Spiele als auch eine große Anzahl neuer Releases,
durchsetzen müssen.
Platform Verkaufszahlen im laufe der Jahre
Nachdem wir uns die Platform verteilung angeschaut haben stellt sich
die Frage ob es im laufe der Jahre unterschiede in den Verkäufen
gibt.
Um uns dies anzuschaun verwenden wir eine neue art der Grafik die wir
bisher noch nicht verwendet haben. Zum erstellen der Grafik gruppieren
wir zuerst wieder unsere Daten und addieren die werte der Sales pro Jahr
und Platform auf. ZUsätzlich zum Filter der ungültigen Jahre filter wir
allerdings alle Summen mit weniger als 60 mio in Sales. Dies ist um eine
Überladung des Diagramms zu verhindern führt aber zu anderen Problemen. Neu in der erstellung dieses
Diagramms sind auch die befehle arrange() und slice().
Arrange sortiert die Tabelle anhand der gegebenen Spalte in unserem fall
ist das die Summe der Globalen verkäufe. Slice entfernt alle Spalten bis
auf jene, welche wir verwenden wollen. Neu bei der Diagamm erstellung
sind hier die Parameter mode = ‘none’ sowie stackgroup =
‘one’ welche die hier zu sehende Grafik erzeugen.
grouped <- vgsales %>%
group_by(Year, Platform) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>% filter(gr_sum>60)%>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
grouped <- grouped %>%arrange(desc(gr_sum)) %>%
group_by(Year, Platform) %>%
slice(1:3)
filtered <- grouped %>% select(Year,Platform,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "verkäufe pro Platform (in mio)"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Platform ,colors = myPalette)%>%
layout(title="Verkäufe pro Platform von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Im ersten Moment ist die Grafik sehr verwirrend aber dröseln wir das
ganze einmal genauer auf. Zuerst einmal fällt auf, dass die Jahre
1980-1988 sowie 1990-1005 und 2016 fehlen. Dies liegt an den oben
gewählten Filtern und den in den Jahren pro Plattform gemessen zu
geringen Verkaufszahlen. Zwischen den Jahren 1996 und 2000 ist hier nur
die Playstation, welche 1994 veröffentlicht wurde zu erkennen. Im Jahre
2000 wird diese dann von der Playstation 2, welche am 04.03.2000 releast
wurde abgelöst. Auch der Gameboy Advanced hier in den Jahren 2000-2003
sowie 2004 zu erkennen, obwohl dieser Global erst Mitte des Jahres 2001
releast wurde.2004 wird die Playstation 2 dann von der Xbox, welche am
22.02.2002 erstmals veröffentlich wurde, kurzzeitig abgelöst bevor die
Wii(02.12.2006) mit nur einem Verkaufsmonat des Jahres 2006 die Führung
übernimmt. Auch die Verkaufszahlen des Nintendo DS (02.12.2004) sind in
den Jahren 2005-2010 gut erkennbar. Die XboX360 (10.12.2005) übernimmt
ab 2007 den ersten Platz der Rangliste und wird erst 2014 von der
PS4(15.11.2013) abgelöst.
Allgemein ist hier ein Trend erkennbar. Meist verkaufen Platformen
wie zu erwarten einige Zeit nach Release die meisten Spiele.
Erstaunlicherweise ist dies jedoch nicht kurz nach Release sondern z.T.
erst einige Jahre später. Interessant währe hier eine detailliertere
analyse aber weiteres dazu hier.
Publisher Vergleich
Nachdem wir uns nun eine Übersicht über die Platformen gemacht haben
wäre es doch interessant zu wissen ob sich neben bestimmten Platformen
auch bestimmte Entwickler/Publisher häufen. Anzunehmen ist hierbei das
Namenhafte Publisher wie EA und Nintendo die Liste anführen. Hierzu
verwenden wir wiederum Paretodiagramme. Eine genauere erklärung zur
erstellung ebenjener gibt es hier.
Einzige neuerung in diesem abschnitt ist das Kürzen der Namen um die
Begriffe “Entertainment”, “Interactive”, “Game”, “Games” und “Studios”
da dies die Namen nur unnötig verlängert. Um dies zu erreichen mutzen
wir die Funktion str_remove_all() auf die Spalte Publisher.
Publisher
nach Anzahl
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n()) %>%
filter(Anzahl>100) %>% filter(Publisher!="Unknown")
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "Anzahl"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Anzahl, .desc="true"),
y=~Anzahl,
name="Spiele Anzahl pro Publisher"
,colors = myPalette) %>%
layout(title="Spiele Anzahl pro Publisher",
xaxis = ax,
yaxis = ay
)
Betrachten wir zuerst einmal die Anzahl der Spielereleases. Wenig
überaschend ist hier EA (1351), mit jährlich veröffentlichenden
namenhaften Spielen wie FIFA und Madden NFL sowie anderen bekannten
Reihen wie Need for Speed, Battlefield oder Sims, anführer der Liste. An
zweiter stelle befindet sich Activision (975) die unter anderem Spiele
wie World of Warcraft, die Diablo reihe sowie Candy Crush entwickelten.
Zum Zeitpunkt der Erstellung dieser Arbeit sind diese noch ein eigener
Konzern werden allerdings vorausichtlich 2023 Teil von Microsoft. Darauf
folgen in kurzen abständen Ubisoft (921), welche für Assasins Creed,
Rainbox six oder Anno bekannt sind, sowie THQ mit 715 (Gothic,
Darksiders, TitanQuest). Auch Nintendo (703) mit Mario, Pokemon und
Zelda sowie Sony (638), bekannt durch die Gran Tourismo und Uncharted
Reihe sowie The last of Us, sind nicht weit abgeschlagen. Den letzten
platz der Top Publisher belegt Take Two, welche für GTA, Borderlands und
Civilization bekannt sind, mit 413.
nach Verkaufszahlen
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(Global_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Verkaufszahlen pro Publisher"
,colors = myPalette) %>%
layout(title="Verkaufszahlen pro Publisher",
xaxis = ax,
yaxis = ay
)
Beim Betrachten der Verkaufszahlen fällt hier direkt die diskrepanz
zwischen Anzahl der Spielereleases und Anzahl der Spieleverkäufe auf. Im
gegensatz zu der Anzahl der Spiele (bei dem Nintendo nur auf platz 6
Sitz) dominiert Nintendo(1.786 mrd) in Sales. EA (1.1 mrd), welche noch
mit Abstand die meisten spielreleases hatten sind in den Verkäufen nur
noch mit deutlichem Abstand auf Platz 2. Auch die anderen Plätze
verändern sich leicht die Unterschiede sind hier jedoch deutlich
geringer als bei Nintendo und EA. Interessant wäre hierzu vielleicht
noch ein direkter vergleich zwischen Anzahl und Sales aber genaueres
dazu im Fazit
Publisher Ranking nach Region
Nachdem wir uns einen Allgemeinen Überblick über die Publisher
gemacht haben betrachten wir die Regionalen unterschiede in den
Verkaufszahlen. Hierzu verwenden wir erneut die Bereits bekannten
Shemata der Pareto- und Kreisdiagramm kombo. Einen Refresher
für die Erstellung ebenjener Diagramme gibt es via den Entsprechenden
Links.
Ranking nach Region
Balkendiagramme
Europa
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(EU_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(EU_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "EU verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
y=~Global_Sales,
name="EU Verkaufszahlen pro Publisher"
,colors = myPalette) %>%
layout(title="EU Verkaufszahlen pro Publisher",
xaxis = ax,
yaxis = ay
)
Im vergleich zu den Globalen Verkaufszahlen fällt hier auf das EA
(371.27 mio) deutlich dichter hinter Nintendo(418.74) auf dem Zweiten
Platz ist. Der Abstand zwischen EA und Activision (215.53) ist
dementsprechend auch deutlich größer. Die restlichen werte unterscheiden
sich aber kaum.
Nord Amerika
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(NA_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(NA_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "NA verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
y=~Global_Sales,
name="NA Verkaufszahlen pro Publisher"
,colors = myPalette) %>%
layout(title="NA Verkaufszahlen pro Publisher",
xaxis = ax,
yaxis = ay
)
Auch in Nord Amerika kann EA(595.07) leicht größere Verkaufszahlen im
vergleich mit Nintendo (816.87) als noch Global verbuchen. Im gegensatz
zu Europa scheint jedoch Activision (429.7) in Amerika deutlich
beliebter zu sein. Die weiteren Publisher sind auch weiterhin nicht
Relevant.
Japan
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(JP_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(JP_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "JP verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
y=~Global_Sales,
name="JP Verkaufszahlen pro Publisher"
,colors = myPalette) %>%
layout(title="JP Verkaufszahlen pro Publisher",
xaxis = ax,
yaxis = ay
)
Japan Zeigt hier wohl den Deutlichsten unterschied auf. Nintendo
(455.42) Dominiert hier die Verkaufszahlen mit der mehr als 6 fachen
menge an verkäufen als Sony (74.1) welche sich den 2. Platz sichern. Die
anderen Publisher sind alle fast gleich irrelevant in Japan.
Kreisdiagramme
Europa
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(EU_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(EU_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "EU verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Publisher,
name="EU Verkaufszahlen pro Publisher"
,colors = myPalette) %>%
layout(title="EU Verkaufszahlen pro Publisher",
xaxis = ax,
yaxis = ay
)
Im vergleich zu den Globalen Verkaufszahlen fällt hier auf das EA
(23.7%) deutlich dichter hinter Nintendo(26.7%) auf dem Zweiten Platz
ist. Der Abstand zwischen EA und Activision (13.7%) ist dementsprechend
auch deutlich größer. Die restlichen werte unterscheiden sich kaum.
Nord-Amerika
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(NA_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(NA_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "NA verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Publisher,textinfo='label+percent',
name="NA Verkaufszahlen pro Publisher"
,colors = myPalette) %>%
layout(title="NA Verkaufszahlen pro Publisher",
xaxis = ax,
yaxis = ay
)
Auch in Nord Amerika kann EA(21.3%) leicht größere Verkaufszahlen im
vergleich mit Nintendo (29.3%) als noch Global verbuchen diese sind
jedoch geringer als noch in Europa. Im gegensatz zu Europa scheint
jedoch Activision (15.4%) in Amerika deutlich beliebter zu sein. Die
weiteren Publisher sind auch weiterhin nicht Relevant.
Japan
grouped <- vgsales %>%
group_by(Publisher) %>%
summarize(Anzahl =n(),sum(JP_Sales)) %>%
filter(Anzahl>100) %>%
rename(
Global_Sales = "sum(JP_Sales)"
)
PublisherSales <- vgsales %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)
ax <- list(
title = "Publisher"
)
ay <- list(
title = "JP verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Publisher,
name="JP Verkaufszahlen pro Publisher"
,colors = myPalette) %>%
layout(title="JP Verkaufszahlen pro Publisher",
xaxis = ax,
yaxis = ay
)
Japan Zeigt hier wohl den Deutlichsten unterschied auf. Nintendo
(80.1%) Dominiert hier die Verkaufszahlen mit der mehr als 6 fachen
menge an verkäufen als Sony (13%) welche sich den 2. Platz sichern. Die
anderen Publisher sind mit weniger als 2.5% alle fast gleich irrelevant
in Japan.
Zwischen EU und US lassen sich hier kaum Unterschiede feststellen in
Japan hingegen ist eine deutliche verschiebung zu erkennen. Japanische
Publisher führen hierbei die Liste an und drängen andere große
unternehmen von den Top spots. Dementsprechend können wir schlussfolgern
das manche Regionen, vorallem Japan welches die kleinste Region ist,
deutliche vorlieben in spielen bestimmter Publisher haben, welche von
der Globalen norm Abweichen. Eine Genauere Analyse von Europa und Nord
Amerika durch unterteilung in Länder/Staaten währe hier vermutlich
deutlich interessanter wird von den Daten jedoch leider nicht
angeboten.
Genreverteilung der Videospiele nach Anzahl
Da wir uns nu klar geworden sind, dass es bestimmte Publisher gibt,
die beliebter sind als andere wäre es interessant herauszufinden ob
bestimmte Spiele Genres beliebter sind als andere. Hierzu vergleichen
wir zuerst einmal die Genres nach anzahl der Spielereleases und
verwenden erneut ein Pareto- und Kreisdiagramm. Anzumerken ist
hierbei jedoch das Spiele meist mehr als einem Genre angehören in diesem
Datensatz ist jedoch immer nur eins angegeben.
Genre nach Anzahl
Balkendiagramm
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(Anzahl =n())
grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Anzahl, .desc="true"),
y=~Anzahl,
name="Videospielanzahl nach Genre"
,colors = myPalette) %>%
layout(title="Videospielanzahl nach Genre",
xaxis = ax,
yaxis = ay
)
NA
Der Anführer der Liste ist mit deutlichem Abstand Action
(GTA,Bloodborne) mit 3316. Auf dem Zweiten platz findet sich Sports
(2346) mit reihen wie FIFA und NBA2k. Den dritten Platz belegt ein Genre
das aus vielen verschiedenen Genren besteht die in dieser Liste nicht
aufgeführt werden mit 1739. Misc beinhaltet spiele wie Just Dance
(Musik/Rhythmus) oder Minecraft ein Sandbox Survival game. Danach kommen
mit geringerem Abstand der Reihe nach Role-Playing (Witcher, The Elder
Scrolls) mit 1488, Shooter (Call of Duty, Doom) mit 1310, Adventure (God
of War, Life is Strange) mit 1286 und Racing (Gran Tourismo, Forza) mit
1249. Danach folgen mit einem größeren Abstand Platform (Super Mario,
LittleBigPlanet) mit 886, Simulation (Sims, Microsoft Flight Simulator)
mit 867 sowie Fighting (Tekken, Super Smash Bros) mit 884. Zu guter
letzt fehlen noch Strategy (Age of Empires, Civilisation) mit 681 sowie
Puzzle (Portal,Tetris) mit 582.
Kreisdiagramm
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(Anzahl =n())
grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Anzahl,labels=~Genre,
name="Videospielanzahl nach Genre"
,colors = myPalette) %>%
layout(title="Videospielanzahl nach Genre",
xaxis = ax,
yaxis = ay
)
Der Anführer der Liste ist mit deutlichem Abstand Action
(GTA,Bloodborne) mit 20%. Auf dem Zweiten platz findet sich Sports
(14.1%) mit reihen wie FIFA und NBA2k. Den dritten Platz belegt ein
Genre das aus vielen verschiedenen Genren besteht die in dieser Liste
nicht aufgeführt werden mit 10.5%. Misc beinhaltet spiele wie Just Dance
(Musik/Rhythmus) oder Minecraft ein Sandbox Survival game. Danach kommen
mit geringerem Abstand der Reihe nach Role-Playing (Witcher, The Elder
Scrolls) mit 8.96%, Shooter (Call of Duty, Doom) mit 7.89%, Adventure
(God of War, Life is Strange) mit 7.75% und Racing (Gran Tourismo,
Forza) mit 7.53%. Danach folgen mit einem größeren Abstand Platform
(Super Mario, LittleBigPlanet) mit 5.34%, Simulation (Sims, Microsoft
Flight Simulator) mit 5.22% sowie Fighting (Tekken, Super Smash Bros)
mit 5.11%. Zu guter letzt fehlen noch Strategy (Age of Empires,
Civilisation) mit 4.1% sowie Puzzle (Portal,Tetris) mit 3.51%.
Auffällig hierbei ist das die Größten vier Genres 53.56% der
Spielereleases ausmachen. Dies ist ansich nicht weiter Verwunderlich. In
der Spieleindustrie bzw allgemein, ist es ein gerne genutztes konzept
Funktionierende dinge zu übernehmen. Dies ist vorallem auffällig bei
Spielen, welche ganze Genres prägen. Sei es Minecraft für die Survival
Games (DayZ, Rust), World of Warcraft für die MMORPG’s (Final Fantasy
14, Guild Wars 2) oder die Warcraft 3 mod Dota welche das MOBA genre
(League of Legends, Dota 2) nach sich gezogen hat.
Genreverteilung der Videospiele nach Verkaufszahlen
Schauen wir uns nun jedoch an ob die Verkaufszahlen die gleichen
häufungen aufzeigen und verwenden wieder ein Pareto- und Kreisdiagramm. Es gilt weiterhin die
obengenannte Problematik der Genrenotation des Datensatzes.
Verkaufszahlen
Balkendiagramm
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Verkaufszahlen nach Genre"
,colors = myPalette) %>%
layout(title="Verkaufszahlen nach Genre",
xaxis = ax,
yaxis = ay
)
NA
Auf Platz 1 und 2 der Liste befinden sich weiterhin Action (1.751
mrd) und Spots (1.33 mrd). Platz 3 belegt hier jedoch nicht Misc welches
mit 809.96 mio auf platz 6 abgerutscht ist sondern Shooter (1.037 mrd).
Platz 4 wird weiterhin von Role-Playing (927.37 mio) belegt. Auch
Platform (831.37) verkaufen sich deutlich besser und sichern sich Platz
5. Die restlichen Genres unterscheiden sich Kaum in Anzahl und
Verkaufszahlen.
Kreisdiagramm
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,
name="Verkaufszahlen nach Genre"
,colors = myPalette) %>%
layout(title="Verkaufszahlen nach Genre",
xaxis = ax,
yaxis = ay
)
Auf Platz 1 und 2 der Liste befinden sich weiterhin Action (19.6%)
und Spots (14.9%). Platz 3 belegt hier jedoch nicht Misc welches mit
9.08% auf platz 6 abgerutscht ist sondern Shooter (11.6%). Platz 4 wird
weiterhin von Role-Playing (10.4%) belegt. Auch Platform (9.32%)
verkaufen sich deutlich besser und sichern sich Platz 5. Die restlichen
Genres unterscheiden sich Kaum in Anzahl und Verkaufszahlen.
Beim Betrachten fällt hier auf, dass sich einige Genres deutlich
besser verkaufen als andere. Vorallem Shooter und Platform spiele sind
hier die Kassenschlager wenn man die Verkaufszahlen mit Anzahl der
Spiele vergleicht. Die großen Genres Action und Sports sind jedoch
sowohl in verkaufszahlen als auch Anzahl der Spiele unangefochten auf
platz 1 und 2.
Regionale Unterschiede der Genres
Nachdem wir vorhin bei den Platformen deutliche Regionale
Unterschiede feststellen konnten stellt sich bei den Genres die gleiche
Frage und dementsprechend auch wieder der gleiche Lösungsansatz mit Pareto- und Kreisdiagrammen.
Verkäufe pro Genre
Balkendiagramme
Europa
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(EU_Sales)) %>%
rename(
Global_Sales = "sum(EU_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Verkaufszahlen nach Genre (EU)"
,colors = myPalette) %>%
layout(title="Verkaufszahlen nach Genre (EU)",
xaxis = ax,
yaxis = ay
)
Europa sieht wie bereits in der Platformanalyse festgestellt dem
Globalen Genrevergleich recht ähnlich. Action (525 mio) führt weiterhin
vor Sports(376.85 mio) und Shootern (313.27 mio). Auf platz 4 ist dann
der erste Unterschied feststellbar. Anstatt Role-Playing (188.06 mio)
welches auf Platz 7 abgerutscht ist befindet sich hier Racing (238.39)
welche den Platz tauschen. Auch Platz 5 Misc (215.98 mio) und Platz 6
Platform (201.63 mio) sind in Europa vertauscht. Allgemein scheint hier
auf den hinteren Genreplätzen eine verschiebung feststellbar zu sein
denn obwohl das verhältnis der Genres gleich bleibt sind zusätzlich
sowohl Simulation (113.38 mio) und Fighting (101.32 mio) als auch
Adventure (63.13 mio) und Puzzle (50.78 mio) vertauscht. Von den
hinteren Plätzen bleibt somit einzig Strategy (45.34 mio) auf seinem
vorherigen letzten platz.
Nord-Amerika
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(NA_Sales)) %>%
rename(
Global_Sales = "sum(NA_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Verkaufszahlen nach Genre (NA)"
,colors = myPalette) %>%
layout(title="Verkaufszahlen nach Genre (NA)",
xaxis = ax,
yaxis = ay
)
Auch in Nord-Amerika ist eine Verschiebung der Genres festzustellen.
Die Top 3 sind weiterhin von Action (877.83 mio), Sports (683.35 mio)
und Shooter (582.6 mio) belegt. Im gegensatz zu Europa sind hier
allerdings nur Platz 4 Platform (447.05 mio), Platz 5 Misc (410.24 mio)
sowie Platz 6 Racing (359.42) und Platz 7 Role-Playing (327.28 mio)
vertauscht. Platz 8 bis 12 sind wie die globalen Referenzwerte
angeordnet der einzige Unterschied zwische Global und Nord-Amerika ist
somit die verschiebung von Role-Playing auf Platz 7.
Japan
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(JP_Sales)) %>%
rename(
Global_Sales = "sum(JP_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
y=~Global_Sales,
name="Verkaufszahlen nach Genre (JP)" ,colors = myPalette) %>%
layout(title="Verkaufszahlen nach Genre (JP)",
xaxis = ax,
yaxis = ay
)
NA
In Japan befindet sich Role-Playing (352.31 mio) mit großem Abstand
auf Platz 1 noch vor de sonstigen Platzhirschen Action (159.95 mio) und
Sports (135.37 mio). Die ehemalige top 3 Shooter (38.28 mio) fällt in
Japan auf den letzten platz ab und wird von Platform (130.77 mio)
ersetzt. Misc (107.76 mio) kann sich weiterhin im mittelfeld halten
wohingegen Fighting (87.35 mio) und Simulation (63.7 mio) einige Plätze
gut machen können und nun auf Platz 6 und 7 vorrücken. Auch Puzzle Games
(57.31 mio) erfreuen sich einer höheren beliebtheit als noch Global
wohingegen Racing (56.69 mio) einen deutlichen Verlust hinnehmen muss.
Adventure (52.07 mio) und Strategy (49.46 mio) bleiben jedoch weiterhin
eine der Unbeliebtesten Genres.
Kreisdiagramme
Europa
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(EU_Sales)) %>%
rename(
Global_Sales = "sum(EU_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,
name="Verkaufszahlen nach Genre (EU)" ,colors = myPalette) %>%
layout(title="Verkaufszahlen nach Genre (EU)",
xaxis = ax,
yaxis = ay
)
Europa sieht wie bereits in der Platformanalyse festgestellt dem
Globalen Genrevergleich recht ähnlich. Action (21.6%) führt weiterhin
vor Sports(15.5%) und Shootern (12.9%). Auf platz 4 ist dann der erste
Unterschied feststellbar. Anstatt Role-Playing (7.73%) welches auf Platz
7 abgerutscht ist befindet sich hier Racing (9.79%) welche den Platz
tauschen. Auch Platz 5 Misc (8.87%) und Platz 6 Platform (8.28%) sind in
Europa vertauscht. Allgemein scheint hier auf den hinteren Genreplätzen
eine verschiebung feststellbar zu sein denn obwohl das verhältnis der
Genres gleich bleibt sind zusätzlich sowohl Simulation (4.66%) und
Fighting (4.16%) als auch Adventure (2.63%) und Puzzle (2.09%)
vertauscht. Von den hinteren Plätzen bleibt somit einzig Strategy
(1.86%) auf seinem vorherigen letzten platz.
Nord-Amerika
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(NA_Sales)) %>%
rename(
Global_Sales = "sum(NA_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,
name="Verkaufszahlen nach Genre (NA)",colors = myPalette) %>%
layout(title="Verkaufszahlen nach Genre (NA)",
xaxis = ax,
yaxis = ay
)
Auch in Nord-Amerika ist eine Verschiebung der Genres festzustellen.
Die Top 3 sind weiterhin von Action (20%), Sports (15.6%) und Shooter
(13.3%) belegt. Im gegensatz zu Europa sind hier allerdings nur Platz 4
Platform (10.2%), Platz 5 Misc (9.34%) sowie Platz 6 Racing (8.18%) und
Platz 7 Role-Playing (7.45%) vertauscht. Platz 8 bis 12 sind wie die
globalen Referenzwerte angeordnet der einzige Unterschied zwische Global
und Nord-Amerika ist somit die verschiebung von Role-Playing auf Platz
7.
Japan
grouped <- vgsales %>%
group_by(Genre) %>%
summarize(sum(JP_Sales)) %>%
rename(
Global_Sales = "sum(JP_Sales)"
)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
ordered%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,
name="Verkaufszahlen nach Genre (JP)" ,colors = myPalette) %>%
layout(title="Verkaufszahlen nach Genre (JP)",
xaxis = ax,
yaxis = ay
)
In Japan befindet sich Role-Playing (27.3%) mit großem Abstand auf
Platz 1 noch vor de sonstigen Platzhirschen Action (12.4%) und Sports
(10.5%). Die ehemalige top 3 Shooter (2.97%) fällt in Japan auf den
letzten platz ab und wird von Platform (10.1%) ersetzt. Misc (8.35%)
kann sich weiterhin im mittelfeld halten wohingegen Fighting (6.77%) und
Simulation (4.93%) einige Plätze gut machen können und nun auf Platz 6
und 7 vorrücken. Auch Puzzle Games (4.44%) erfreuen sich einer höheren
beliebtheit als noch Global wohingegen Racing (4.39%) einen deutlichen
Verlust hinnehmen muss. Adventure (4.03%) und Strategy (3.83%) bleiben
jedoch weiterhin eine der Unbeliebtesten Genres.
Zu erkennen ist hier erneut das Amerika und Euopa recht ähnlich
interessen haben und nur auf den mittleren und hinteren plätzen
unterschiede aufweisen. Nord-Amerika ist als der größte Markt wie zu
erwartend am nächsten an den Globalen Referenzdaten wohingegen Japan ein
gänzlich anderes Genreshema erkennen lässt. In Japan dominiert
Role-Playing welches sich in Europa und Amerika nur auf platz 7 befindet
welches durch die Japanische Kultur geprägt auch sinn ergibt.
Genreentwicklung im laufe der Jahre nach anzahl
Nachdem wir uns nun Über die Genreverteilung Global und in den
einzelnen Regionen ein Bild gemacht haben wäre es interessant
anzuschauen wie sich die Genres im Laufe der Jahre entwickelt haben und
ob sich ein Trend bei Gewissen Genres erkennen lässt. Als erstes
Betrachten wir reine Anzahl der Spielereleases und später die verkaufszahlen. Hierzu
verwenden wir verschiedene Lineplots die sich in der Datenvorbereitung
nicht großartig von den Pareto- und Kreisdiagrammen unterscheidet. Die
unterschiede in der Diagramm erstellung werde ich jedoch im Folgenden
aufzeigen.
Anzahl der Spiele pro Genre pro Jahr
Lines
Die erstellung des Lines Diagrammes ist wohl die simpelste. Wir
verwenden unsere vorgefiltertes data.frame filtered und
übergeben dies an die plot_ly() funktion. Danach nutzen wir
add_lines um ein Liniendiagramm zu erstellen und setzen die
Parameter. Der X-Wert ist das Year, der Y-Wert die
Anzahl. Als color wählen wir das Genre und unsere
Farbtabelle übergeben wir an die funktion via colors=.
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Anzahl"
)
filtered %>%
plot_ly() %>%
add_lines(x=~Year,
y=~Anzahl, color=~Genre,colors = myPalette) %>%
layout(title="Anzahl der Spielereleases von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Im ersten moment ist dieses Diagramm recht unübersichtlich doch bei
genaueren Betrachtung kann ein aufmerksamer Betrachter bereits einige
Dinge erkennen. Zum einen sehen wir das zwischen 1993 und 2003
tatsächlich Sports das meist verkaufte Genre war bevor es von Action
abgelöst wurde. Misc games erfreuten sich zwischen 2005 und 2011 großer
beliebtheit bevor diese wieder in der Versenkung verschwanden. Auch
Adventure games waren zwischen 2007 und 2010 am beliebtesten.
Filled Lines
Die Erstellung des Filled Lines Diagrammes unterscheides sich etwas
von dem einfach Lines-Plot. Anstatt der add_Lines funktion
übergeben wir hier direkt die Parameter mit an plot_ly(). X ist
weiterhin das Jahr, Y die Anzahl, die Farbtablette colors und
color=Genre. Die Unterschiede sind hier der type
parameter welcher auf scatter gesetz wird, mode welches none
ist und fill welches durch tozeroy die füllung bis zur
y Achse erzeugt.
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Anzahl"
)
filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette)%>%
layout(title="Anzahl der Spielereleases von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Einige feinere unterschiede Lassen sich hier deutlich besser erkennen
als noch im Lines Diagramm. Man erkennt beispielsweise den großen
Wachstum von Strategy games zwischen 1996 und 1998 bevor diese 2000
stark abflachen und nicht mit dem allgemeinen Wachstum der anderen
Genres mithalten können. Auch der große Wachstum von Racing games
zwischen 200 und 2004 ist gut erkennbar.
Stacked Lines
Da stacked Lines sehr übersichtlich und gut darin sind sich einen
Groberen überblick über die Daten zu schaffen sind diese hier als erste
Ansicht vorausgewählt. Um die hinzugehörende Texte hundertprozentig
verstehen zu können ist es aber hilfreich zuerst den Lines und Filled
Lines tab zu studieren.
Die Erstellung des stacked Lines Diagramm ist den Filled Lines sehr
ähnlich. Einziger unterschied ist die Abwesenheit des fill
parameters und stattdessen die verwendung von stackgroup=‘one’
welches die stacked Lines erzeugt.
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Anzahl"
)
filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>%
layout(title="Anzahl der Spielereleases von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Leider sind die Farben aufgrund eines Fehlers hier etwas fehlerhaft
mehr dazu im Fazit Beim Betrachten
des Stacked Line plots sind jedoch trotzdem einige Dinge direkt sehr gut
zu erkennen. Man sieht welche Genres ein größeres Wachstum hinlegen als
andere. Sowohl Shooter als auch Puzzle und Platform Games bleiben in den
2010er jahren relativ gleichbleibend. Action, Strategz, Misc und Sports
Games können jedoch ein deutliches Wachstum aufzeigen.
Genreverschiebung
Schauen wir uns nun die Erstellung der zum vergleichen der Genres
wohl interessantesten Grafik an. Die erstellung ist hier quasi gleich zu
den Stacked Lines. Einzige neuerung ist das hinzufügen des Parameters
groupnorm = ‘percent’ welches die Y-Achse von dem wert der
Anzahl zu Prozentwerten ändert. Auch hier sind jedoch die Farben leider
Fehlerhaft.
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Prozent %"
)
filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>%
layout(title="Marketshare Genreverschiebung in % von 1980-2016",
xaxis = ax,
yaxis = ay
)
Beim Betrachten fällt hier direkt auf, dass Action Games 1980-1984
einen großen Marktanteil, teilweise bis hin zu 50% ausgemacht haben.
Diese bis 1994 auf gerademal 3% absinken bevor der Stetige Wachstum
beginnt bis sie 2016 wieder bei Knap 40% enden. Auch die große
Marktpräsenz von Platform Spielen zwischen 1984 und 1992 ist gut
erkennbar wohingegen Racing Games sich zwischen 1994 und 2004 der
größten beliebtheit erfreuen.
Hierbei zu erkennen ist Obwohl die Anzahl der Jährlichen
Spielereleases über die Jahre hinweg stetig wächst bleiben die Meisten
Genres ähnlich viel vertreten. Auffällig sind hierbei Strategy-Games die
erst 1991 das erste mal auftretem Seitdem obwohl sie Leicht an
Marketshare verlieren grob gleich bleiben. Außerdem sind Action Games
die Spiele mit der wohl größten volatilität. Sind es 1982 noch fast 50%
der Gamereleases fällt deren aufkommen 1084 schon auf nur noch knapp 10%
ab und 1986 steigt der Wert wieder auf fast 30%. Dieser Trend setzt sich
fort bis 1996 ab welchem Zeitpunkt sich Action Games von 3.6% über die
Jahre bis 2016 bis 35% entwickeln.
Genreentwicklung im laufe der Jahre nach Verkaufszahlen
Schauen wir uns an wie sich die verkäufe entwickelt haben. Hierzu
verwenden wir die gleichen Diagramme wie bereits bei der Betrachtung der
Spiele Anzahl. Eine erklärung der erstellung der Diagramme gibt es hier.
Verkäufe pro Jahr
Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Verkäufe (in mio)"
)
filtered %>%
plot_ly() %>%
add_lines(x=~Year,
y=~gr_sum, color=~Genre ,colors = myPalette) %>%
layout(title="Verkaufszahlen der Spielereleases von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Beim ersten Betrachten fällt hier direkt die hohe volatilität der
einzelnen Graphen auf, welches durch den hohen Einfluss einiger
gutlaufender Games auf die Verkaufszahlen zurückzuführen ist. Am
einfachsten ist dies zwischen 1980 und 1992 erkennbar. 1981 ist ein
spike in Action Games erkennbar, nametlich durch die veröffentlichung
namentlicher spiele wie Frogger und Pitfall. Im Jahr 1984 erkennbar ist
dann der spike von Shootern durch Duck-Game sowie Platform games in 1985
durch Super Mario Bros. Super Mario prägt die Historie der Platform
Games auch zwischen 1988 und 1990 mit Super Mario Bros 3 und Super Mario
World. Das Spiel welches 1989 einen ausschlag der Puzzle-Games
verursacht dürfte sogar Lesern, welche nicht Teil der Gaming-Community
sind ein begriff sein: Tetris.
Filled Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Verkäufe (in mio)"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>%
layout(title="Verkaufszahlen der Spielereleases von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Durch Betrachten des Filled Line Plots erkennen wir gut den Hoch der
Strategiespiele im Jahr 1999 durch spiele wie Pokemon Stadium, Warzone
2100 oder Age of Empires II. Auch die Spikes der Role-Playing Games im
gleichen Jahr durch Pokemon Gold/Silber und Final Fantasy VIII sowie
1996 durch Pokemon Rot/Blau sind deutlich erkennbar.
Stacked Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Verkäufe (in mio)"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre ,colors = myPalette)%>%
layout(title="Verkaufszahlen der Spielereleases von 1980-2016",
xaxis = ax,
yaxis = ay
)
Stacked Lines sind vermutlich das Beste Diagramm um Verkaufszahlen
mit der Anzahl zu vergleichen. Am auffälligsten hier sind, dass die
Volatilität in den früheren Jahren (1980-1995) bei geringerer präsenz
von Videospielen deutlich größer ausfällt als in der anzahl der
Videospiele. In den Späteren Jahren vorallem ab 2003 fallen die
Schwankungen hier jedoch deutlich geringer aus, was vermutlich an der
höheren Masse von Videospielen und damit einem breit gefächerterem
Nutzerinteresse liegt.
Genreverschiebung
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Prozent %"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>%
layout(title="Marketshare Genreverschiebung in % von 1980-2016",
xaxis = ax,
yaxis = ay
)
Durch die hohe Volatilität ist die Grafik in den früheren Jahren
vorallem zwischen 1980 und 1992 sehr durcheinandern und Teilweise recht
schwierig zu lesen. In den darauf folgenden Jahren ist es aber deutlich
leichter bestimmte dinge wie das erstmalige auftretens der
Strategiespiele 1992 oder die fast Vollständige Abstinenz von Puzzle
Games zwischen 1995 und 2002 sowie ab 2012 zu erkennen.
Wie zu erwarten lässt sich hier ein Großer overlap zu den Anzahl der
Gamereleases feststellen es kann jedoch eine Hohe Volitilität durch
einzelne Spielereleases vorallem in früheren Jahren festgestellt werden.
Dies hat den Grund das einige “Kassenschlager” hier einen großteil des
Marktes ausmachen und ihn somit stark beeinflussen. Anzumerkten ist
jedoch das Spiele gerne Rereleast werden vorallem auf unterschiedlichen
Konsolen, dies in unserem Datensatz jedoch nicht zusammegeführt wird.
Weiteres hierzu im Fazit
Genreentwicklung im laufe der Jahre nach Verkaufszahlen pro
Spiel
Nachdem wir nun Analysiert haben wie sich die Anzahl der
Spielereleases sowie die Verkaufszahlen entwickelt haben wäre es doch
interessant beides gegenüberzustellen und direkt zu vergleichen. Hierzu
verwenden wir erneut die bereits bekannten Diagramme nutzen jedoch in der
dplyr::summarize() funktion die Summe der Verkaufszahlen welche
wir durch die Anzahl der Einträge teilen.
Verkäufe pro Spiel pro Jahr
Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Verkäufe pro Spiel"
)
filtered %>%
plot_ly() %>%
add_lines(x=~Year,
y=~gr_sum, color=~Genre ,colors = myPalette) %>%
layout(title="Verkäufe pro Spiel nach Genre von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Im Lines-Plot erkennen wir direkt die in der Verkaufszahlanalys genannten Extreme
welche durch einzelne Spiele, vorallem in den früheren Jahren,
beeinflusst werden. Am deutlichsten ist dies in Shooter Games 1984 durch
Duck-Game und Platform spiele 1985 durch Super Mario Bros. Auch Tetris
(Puzzle 1989) sowie Super Mario Bros 3 (Platform 1988) und Super Mario
World (Platform 1990) sind deutlich erkennbar. Neu erkennbar ist hier
der Ausschlag in Racing games 1992 durch den Klassiker Super Mario Kart
wessen Nachfolger bis heute auf fast jeder Nintendo Konsole
veröffentlicht wurden.
Filled Lines
In dem Fall der Verkäufe Pro Jahr sind die Stacked Lines leider wenig
ausschlaggebend und daher auch nicht als erste ansicht vorausgewählt.
Zum verstehen der Analyse sollte jedoch der Lines-Tab zuerst gelesen
werden.
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Verkäufe pro Spiel"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>%
layout(title="Verkäufe pro Spiel nach Genre von 1980-2016",
xaxis = ax,
yaxis = ay
)
NA
Beim Betrachten der Filled-Lines fällt auf das neben den Bereits
genannten Extremen Racing games auch im Jahre 1990 schon einen Hochpunkt
durch F-1 Race erfuhr. Auch das Extrem des Action genres 1987 durch
Zelda II: The Adventure of Link ist hier deutlicher erkennbar.
Stacked Lines
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Verkäufe pro Spiel"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>%
layout(title="Verkäufe pro Spiel nach Genre von 1980-2016",
xaxis = ax,
yaxis = ay
)
Stacked Lines ist hier für eine Analyse der einzelnen Spielegenres
leider nicht hilfreich. Der aufmerksame Beobachter wird sich jedoch an
eine der ersten Grafiken erinnern in denen wir die Sales pro Game analysiert haben und
sich Fragen warum die Werte hier deutlich höher ausfallen als noch
bevor. War in der Analyse ohne Genres der Maximalwert noch bei 4 so ist
er Hier bei mehr als 20. Dies liegt vorallem daran, dass Action games in
den Früheren Jahren einen großteil der Releases ausmachen bei den
verkaufszahlen aber eher gering ausfallen und den durchschnitt daher
herunterziehen. Sind die Spiele nach Genre aufgeteilt beeinflusst das
schlecht performende Action Genre die Verkaufszahlen pro Spiel der
anderen jedoch nicht und so erhalten wir additiv eine deutlich größere
Zahl als zuvor.
Genreverschiebung
grouped <- vgsales %>%
group_by(Year, Genre) %>%
dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
as.data.frame()
`summarise()` has grouped output by 'Year'. You can override using the `.groups` argument.
filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
title = "Jahr"
)
ay <- list(
title = "Prozent %"
)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre, colors = myPalette)%>%
layout(title="Marketshare in Verkäufe pro Spiel nach Genre von 1980-2016",
xaxis = ax,
yaxis = ay
)
Durch die hohe volatilität in den Früheren Jahren ist auch hier wie
bei den Verkaufszahlen das Genreshift Diagramm wenig ausschlaggebend. AB
1994 kann man jedoch deutlich erkennen wir sich die Genres im laufe der
Jahre entwickeln. Shooter werden deutlich beliebter wohingegebn
Role-Playing games auf dem absteigenden Ast sind.
Auch hier ist wie erwartet die Entwicklung Prozentual ähnlich.
Auffällig ist jedoch das Shooter trotz ihrer geringen Vertretung in der
Prozentualen Verteilung 1984 sowie 2014,2015 und 2016 die Nase Vorne
haben. Platform Games haben 1985,1988 und 1990 die Nase Vorne. Die
Hochzeit der Puzzle Games sind unangefochten 1988 mit dem
Weltweitbekannten und auf Platz 6 der meistverkauften videospiele:
Tetris. Auffällig sind vorallem die Moderneren entwicklungen. Sind in
den 1996-2005er Jahren Role-Playing und somit langsame immersive
erlebnisse noch deutlich Beliebter haben heutzutage Shooter mit ihrem
Rundenbasiertem, “Fast Paced” also schnellem spielfluss die Nase Vorne.
In der Modernen Welt ist es deutlich einfacher und für Viele leute
weniger Zeitintensiv kurz eine Runde von 15-45 minuten zu spielen als
sich Stundenlang in eine Rolle hineinzuversetzen. Vielen Menschen fehlt
einfach Zeit oder Geduld um sich in der Zeit von modernen Medien wie
Tik-Tok oder Instagramm, welche sich auf kurze erlebnisse von oft
wenigen Sekunden spezialisiert haben, in ein Immersives erlebnis
hereinzuversetzen.
Genreverteilung nach Publisher
Da wir nun sowohl Genres als auch Publisher betrachtet haben wäre es
doch der einzig logische schritt diese beiden Daten zusammenzuführen und
zu vergleichen. Gibt es hier Publisher die verschiedene Genres
bevorzugen bzw. deren Bestseller sich in bestimmten Genres Tummeln?
Hierzu verwenden wir ein stacked Bar-Plot. Der beginn der
Diagrammerstellung ist hierbei ähnlich wie noch bei Paretodiagrammen. Relativ schnell fällt hier
jedoch auf das wir anstatt nur eines Dataframes Zwei Produzieren. Zum
einen der bereits bekannte grouped Dataframe welcher Publisher,
Genre und Verkaufszahlen ebenjener Genres beinhaltet. Zum anderen
PublisherSales welcher eine Liste der Publisher mit
Gesamtverkaufszahlen von mehr als 300 mio enthält. Diesen verwenden wir
im weiteren verlauf um aus unserem grouped Datensatz alle
Publisher zu entfernen die sich nicht in PublisherSales
befinden. Das geschieht mit hilfe des filter() commands und dem
Schlagwort %in%. Der rest der Diagrammerstellung verhält sich
equivalent zur Publisheranalyse mit dem
unterschied das die Bars bei der Diagrammerstellung nicht sortiert
werden.
Genreverteilung pro Publisher
Verkäufe
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
PublisherSales <- grouped %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
grouped%>%
plot_ly(x=~Publisher,
y=~Global_Sales,
type='bar',
color=~Genre, colors = myPalette) %>%
layout(title="Verkäufe pro Genre pro Publisher",
xaxis = ax,
yaxis = ay,
barmode = 'stack'
)
NA
NA
Beim Betrachten der Verkaufszahlen fällt direkt auf, dass die meisten
Publisher bestimmte Genres präferieren. Activision haben mit Call of
Duty einen großteil ihrer verkäufe im Shooter Genre. Das Electronic Arts
mit FIFA und MaddenNFL im Sport Genre breit vertreten sind ist wenig
Verwunderlich. Shootern (Battlefield) und Racing (Need for Speed) sind
jedoch auch sehr Beliebte Genres bei dem US-basiertem Gaming riesen.
Nintendo spezifiziert sich wenig Verwunderlich auf Platform (Super
Mario) und Role-Playing(Pokemon). Sony hingegen fächern ihr angebot
relativ breit und haben neben 110.57 mio in Racing auch 104 mio in
Platform, 80 mio in Misc und 94.5 mio in Action. Take-Two mit Grand
Theft Auto und Read dead Redemption spezifieren sich wenig verwunderlich
auf Action wohingegen sich THQ wieder relativ breit fächert. Zu guter
letzt fährt Ubisoft eine zweigeteilte Schniene mit Action (Assassin’s
Creed) und Misc (Just Dance).
Anzahl
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n(),sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
)
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
PublisherSales <- grouped %>%
group_by(Publisher) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>% filter(Global_Sales>300)
grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
grouped%>%
plot_ly(x=~Publisher,
y=~Anzahl,
type='bar',
color=~Genre ,colors = myPalette) %>%
layout(title="Anzahl pro Genre pro Publisher",
xaxis = ax,
yaxis = ay,
barmode = 'stack'
)
NA
NA
NA
Betrachten wir die Anzahl der Spiele und stell diese den
Verkaufszahlen gegenüber fällt hier vorallem auf, dass Firmen mit Focus
in den Verkaufszahlen diese in der Produktion noch mehr Prioritisieren.
Interessant ist auch, das Activison produktionsfocus deutlich mehr auf
action Games liegt als auf Shootern diese sich im vergleich jedoch
deutlich schlechter verkaufen.
Bei dem vergleich der Werte ist hier zu bemerken, dass die meisten
Publisher Hierbei sich mit der Anzahl der Spiele und den Sales gut
abdecken. Die auffälligsten diskrepanzen sind hierbei EA mit dem Sports
Genre und ihren järlich releasten Spielen FiFa/NBA2k etc. sowie Nintendo
mit der Platformreihe Super Mario.
Genreverteilung für Publisher Electronic Arts
Schauen wir uns diese Beiden Firmen noch einmal im Detail an. Hierzu
verwenden wir erneut Pareto- und Kreisdiagramm die uns bereits aus
vorderen Teilen der Ausarbeitung bekannt sind.
Genre für Electronic Arts
Balkendiagramme
Verkaufszahlen
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>%
filter(Publisher == "Electronic Arts")
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
grouped%>%
plot_ly() %>% add_bars(x=~Genre,
y=~Global_Sales,
color=~Genre ,colors = myPalette) %>%
layout(title="Verkaufszahlen für Electronic Arts",
xaxis = ax,
yaxis = ay,
barmode = 'stack',
showlegend = FALSE
)
NA
Beim Betrachten der Sales erkennen wir das wie bereits vorher
festgestellt Sports (479.67 mio) an erster Stelle steht. Mit deutlichem
Abstand danach folgen Shooter (158.26 mio), Racing (145.77 mio) und
Action (115.54 mio). Das einzig andere Relevante Genre ist Simulation
mit 89.53 mio in Sales. Role-Playing (35.3 mio), Fighting (31.39 mio),
Misc (24.95 mio) sowie Strategy (14.08 mio), Platform (6.53 mio),
Adventure (4.75 mio) und Puzzle (4.55 mio) spielen eine eher
untergeordnete Rolle.
Anzahl
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n()) %>%
filter(Publisher == "Electronic Arts")
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
grouped%>%
plot_ly() %>% add_bars(x=~Genre,
y=~Anzahl,
color=~Genre ,colors = myPalette) %>%
layout(title="Anzahl der Spielereleases nach Genre für Electronic Arts ",
xaxis = ax,
yaxis = ay,
barmode = 'stack',
showlegend = FALSE
)
NA
In der Detaillansicht sehen Anzahl der Spiele und Sales deutlich
geringer aus. Den ersten Platz belegt weiterhin Sports (561) vor Action
(183), Racing (159), Shooter (139) und Simulation (116). Auch die eher
irelevanten Genres wie Misc (46), Fighting (39) und Strategy (37) sind
weiterhin kaum vertreten.
Kreisdiagramme
Verkaufszahlen
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>%
filter(Publisher == "Electronic Arts")
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
grouped%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent', rotation = 110, sort = FALSE,
name="Verkaufszahlen pro Genre für Electronic Arts" ,colors = myPalette) %>%
layout(title="Verkaufszahlen pro Genre für Electronic Arts",
xaxis = ax,
yaxis = ay,
showlegend = FALSE,
autosize = F
)
NA
NA
Beim Betrachten der Sales erkennen wir das wie bereits vorher
festgestellt Sports (43.2%) an erster Stelle steht. Mit deutlichem
Abstand danach folgen Shooter (14.3%), Racing (13.1%) und Action
(10.4%). Das einzig andere Relevante Genre ist Simulation mit 8.06% der
Sales. Role-Playing (3.18%), Fighting (2.83%), Misc (2.25%) sowie
Strategy (1.27%), Platform (0.588%), Adventure (0.428%) und Puzzle
(0.41%) spielen eine eher untergeordnete Rolle.
Amnzahl
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n()) %>%
filter(Publisher == "Electronic Arts")
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
grouped%>%
plot_ly() %>%
add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = TRUE, rotation = 90,
name="Anzahl der Spielereleases pro Genre für Electronic Arts" ,colors = myPalette) %>%
layout(title="Anzahl der Spielereleases pro Genre für Electronic Arts",
xaxis = ax,
yaxis = ay,
showlegend = FALSE,
autosize = F
)
NA
In der Detaillansicht sehen Anzahl der Spiele und Sales deutlich
geringer aus. Den ersten Platz belegt weiterhin Sports (41.5%) vor
Action (13.5%), Racing (11.8%), Shooter (10.3%) und Simulation (8.59%).
Auch die eher irelevanten Genres wie Misc (3.4%), Fighting (2.89%) und
Strategy (2.74%) sind weiterhin kaum vertreten.
Schauen wir uns EA hier im Detail an fällt auf das die Diskrepanz
zwischen Sales und Anzahl der Gamereleases für EA bei Sports gar nicht
so groß ist (41.5% vs 43.2%) wie vorher gedacht. Die größeren
diskrepanzen sind hier Shooter welches nur 10% der Gamereleases sind
aber gut 15% der Sales und Action mit 13.5% der Gamereleases und 10.4%
der Sales.
Genreverteilung für Nintendo
Nachdem wir nun herausgefunden haben das bei Electronic Arts die
Diskrepanz zwischen Sales und Anzahl der Spiele gar nicht so groß ist
wie vorher gedacht betrachten wir nun die gleichen Daten für Nintendo.
Die Frage die sich hier stellt ist ob bei Nintendo ein ähnlicher verlauf
feststellbar ist oder ob sich bei diesen bestimmte Genres einfach
deutlich besser verkaufen als sie sollten.
Genreverteilung für Nintendo
Balkendiagramme
Verkaufszahlen
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>%
filter(Publisher == "Nintendo")
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
grouped%>%
plot_ly() %>% add_bars(x=~Genre,
y=~Global_Sales,
color=~Genre ,colors = myPalette) %>%
layout(title="Verkaufszahlen pro Genre für Nintendo",
xaxis = ax,
yaxis = ay,
barmode = 'stack',
showlegend = FALSE
)
NA
NA
Wie bereits in der Genreanalyse der
Publisher festgestellt verkaufen sich Platform-Spiele (427.21 mio)
für Nintendo am besten. Doch auch Role-Playing (284.9 mio), Sports (218
mio) und Misc (180.67 mio) machen keinen unwesentlichen Teil ihrer
Verkäufe aus. Selbst die weniger Prominenten Genres wie Racing (151.3
mio), Action (128.18 mio) und Puzzle (124.88 mio). verkaufen sich
immernoch deutlich besser als die entsprechenden Spielegenres der
Konkurrenz EA. Am deutlichsten ist der Unterschied vermutlich bei den
ganz “kleinen” Genres Simulation (85.27 mio), Shooter (69.73 mio),
Fighting (53.35 mio) und Adventure (35.71). Auch wenn diese sich nicht
an der Exakt gleichen stelle in der Rangliste der Sales befinden hat der
letzte Platz von Nintendo Strategy (27.35%) dennoch mehr als das 6 Fache
an Sales als der von EA. Trotz das Nintendo mehr Total Sales hat als
Electronic Arts ist dieser wert nicht 6 mal so groß sondern umfasst
nichtmal das doppelte.
Anzahl
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n()) %>%
filter(Publisher == "Nintendo")
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
grouped%>%
plot_ly() %>% add_bars(x=~Genre,
y=~Anzahl,
color=~Genre ,colors = myPalette) %>%
layout(title="Anzahl der Spielereleases nach Genre für Nintendo",
xaxis = ax,
yaxis = ay,
barmode = 'stack',
showlegend = FALSE
)
NA
Im ersten Moment fällt direkt auf, dass der Ausschlag von Platform
(112) hier deutlich geringer ausfällt als noch in den Verkaufszahlen.
Sowohl Role-Playing (106) als auch Misc (100) umfassen nur ein paar
weniger Spiele. Auch das Mittelfeld umfasst mit Action (79), Puzzle (74)
und Sports (55) immernoch eine Relativ große Anzahl an Spielen. Selbst
die hinteren Plätze mit Racing (37), Adventure (35) und Strategy (32)
sind nur knapp vor Simulation (29), Shooter (26) und Fighting (18).
Kreisdiagramme
Verkaufszahlen
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(sum(Global_Sales)) %>%
rename(
Global_Sales = "sum(Global_Sales)"
) %>%
filter(Publisher == "Nintendo")
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ax <- list(
title = "Genre"
)
ay <- list(
title = "Verkäufe (in mio)"
)
grouped%>%
plot_ly() %>%
add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent',sort = TRUE,
name="Verkäufe nach Genre für Nintendo" ,colors = myPalette) %>%
layout(title="Verkäufe nach Genre für Nintendo",
xaxis = ax,
yaxis = ay,
showlegend = FALSE,
autosize = F
)
NA
NA
Wie bereits in der Genreanalyse der
Publisher festgestellt verkaufen sich Platform-Spiele (23.9%) für
Nintendo am besten. Doch auch Role-Playing (15.9%), Sports (12.2%) und
Misc (10.1%) machen keinen unwesentlichen Teil ihrer Verkäufe aus.
Selbst die weniger Prominenten Genres wie Racing (8.47%), Action (7.17%)
und Puzzle (6.99%). verkaufen sich immernoch deutlich besser als die
entsprechenden Spielegenres der Konkurrenz EA. Am deutlichsten ist der
Unterschied vermutlich bei den ganz “kleinen” Genres Simulation (4.77%),
Shooter (3.9%), Fighting (2.99%) und Adventure (2%). Auch wenn diese
sich nicht an der Exakt gleichen stelle in der Rangliste der Sales
befinden hat der letzte Platz von Nintendo Strategy (1.53%) dennoch mehr
als das 6 Fache an Sales als der von EA. Trotz das Nintendo mehr Total
Sales hat als Electronic Arts ist dieser wert nicht 6 mal so groß
sondern umfasst nichtmal das doppelte.
Anzahl
grouped <- vgsales %>%
group_by(Publisher,Genre) %>%
summarize(Anzahl =n()) %>%
filter(Publisher == "Nintendo")
`summarise()` has grouped output by 'Publisher'. You can override using the `.groups` argument.
ax <- list(
title = "Genre"
)
ay <- list(
title = "Anzahl"
)
grouped%>%
plot_ly() %>%
add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = TRUE,
name="Anzahl nach Genre für Nintendo" ,colors = myPalette) %>%
layout(title="Anzahl nach Genre für Nintendo",
xaxis = ax,
yaxis = ay,
showlegend = FALSE
)
NA
Im ersten Moment fällt direkt auf, dass der Ausschlag von Platform
(15.9%) hier deutlich geringer ausfällt als noch in den Verkaufszahlen.
Sowohl Role-Playing (15.1%) als auch Misc (14.1%) umfassen nur ein paar
weniger Spiele. Auch das Mittelfeld umfasst mit Action (11.2%), Puzzle
(10.5%) und Sports (7.82%) immernoch eine Relativ große Anzahl an
Spielen. Selbst die hinteren Plätze mit Racing (5.26%), Adventure
(4.98%) und Strategy (4.55%) sind nur knapp vor Simulation (4.13%),
Shooter (3.7%) und Fighting (2.56%).
Beim vergleichen der Werte von Nintendo wird einem aufmerksamen
beobachter ziemlich schnell klar, dass Platform Spiele ein Kassenchlager
sind. Nehmen diese nur 16% der spielereleases ein so bringen sie dennoch
24% der Sales ein. Gleiches Gilt für Sport games. 8% gegenüber 12%.
Action (11% vs 7%), Misc (14% vs 10%) und Puzzle Games (10.5% vs 7%)
sind jedoch nicht so erfolgreich. Die Frage woran dies liegen könnte
wäre bestimmt auch eine interessante und etwas für einen Ausblick in die Zukunft
Ausblick in die Zukunft
Bei der Analyse des Datensatzes beziehungsweise der Entstandenen
Grafiken sind sowohl dem Aufmerksamen leser als auch mir dem Ersteller
einige weiter Ideen beziehungsweise weitere Ansätze gekommen die mit
sicherheit interessant wären zu Verfolge. Einige dieser Beispiele habe
ich im Folgenden als Ideen für Zukünftige Projekte
Niedergeschrieben.
Beim Vergleich der allgemeinen Game
Sales haben wir ausschläge Festgestellt die möglicherweise etwas mit
bestimmten Videospielen oder andere äußeren Einflussfaktoren wie den
einfacheren Zugriff auf Konsolen, eine breitere Akzeptanz für
Videospiele oder die Entwicklung des Internets. Eine genauere Analyse
der Ausschläge wäre dementsprechend ein Interessantes Thema.
Interessant wäre Demtnsprechend auch eine genauere Analyse der
Gamesales pro Jahr also in welchem Jahr welches Spiel wie oft gekauft
wurde. Wurde Beispielsweise Tetris 1950 30 mal und 2015 300.000 mal
verkauft. Dies geben die vorliegenden Daten jedoch leider nicht her also
wäre ein andere Datensatz bzw weitere Daten notwendig.
Im gleichen Gedankenschritt kommt eine analyse der Veränderungen
im Kaufverhalten während der Cronapandemie und dem darauf folgenden
Lockdown ist aber aus gleichem Grund leider nicht möglich.
Das Gleiche Trifft auf die Verkaufszhlentwicklung im laufe der Jahre
mit einer genauern Analyse der verkauften Spiele pro Platform im laufe
der Jahre zu.
Desweiteren haben wir uns beim vergleich der Platformen die Frage gestellt wie sich die
Spieleverkäufe pro Platform verhalten. Ein Vergleich ebenjener Daten
währe dementsprechend interessant um zu klären ob sich Biespielsweise
Nintendospiele besser auf Nintendo konsolen oder Sony Spiele besser auf
der Playstation verkaufen. Dies benötigt jedoch vorallem aufgrund von
Exklusivtiteln wie “The Legend of Zelda: Breath of the Wild” oder “God
of War” extensive analysearbeit.
In der Publisheranalyse haben
wir uns Anzahl der Spielereleases sowie Anzahl der Verkäufe verglichen.
Interreant währe hier ein direkter 1 zu 1 vergleich möglicherweise sogar
unter bezugnahme auf Platformen und Genres.
Ein vergleich der Spiele nach Herstellerregion in der Platformanalys wäre sehr interessant gewesen
ist jedoch anhand des Datensatzes leider nicht möglich. Selbst eine
annahme des Herkunftslandes anhand des Publishers ist nicht möglich da
viele Publisher Studios in unterschiedlichsten Ländern und Regionen
betreibt. Ubisoft hat beispielsweise Standorte in Paris, Mainz, New York
und Singapur.
Ein Regionaler vergleich anhand der Einwohnerzahlen einer Region
bzw allgemein ein Vergleich der Spieleverkäufe mit der Entwicklung der
Weltbevölkerung, welche sich seit 1980 fast
verdoppelt hat.
Dies ist nur ein kleiner ausschnitt der schier unendlichen
Möglichkeiten die einem bei der Analyse von den mittlerweile mehr als 4
mio Videospielen bleibt und das nur angenommen wir bleiben bei einem
eher allgemeinerem Vergleich. Jedes dieser Videospiele hat vermutlich
genug öffentliche Daten um eine Arbeit zu produzieren die ein vielfaches
des Volumens dieser Arbeit, für welche mir nur knapp 70h zu Verfügung
standen, hat.
Aufgetretene Probleme
Nun aber zu dem unschönen teil einer jeder Arbeit. Den aufgetretenen
Problemen, welche entweder nicht lösbar oder eine relativ starke
überarbeitung der Ausarbeitung nachziehen würden.
Das Erste und für den Aufmerksamen Leser, welcher sich vorallem
die Line Plots im direkten vergleich angeschaut hat, offensichtliche.
Der am Anfag erstellte Colorbrewer, welcher die Farben für die Grafiken
liefert wird aus irgendeinam Grund nicht in jeder Grafik akzeptiert.
Dies scheint hier rein zufällig zu sein und folgt keinem
offensichtlichem Pattern. Der Einziger unterschied zwischen Filled Lines
und Stacked Lines ist die Abwesenheit des fill parameters und
stattdessen die verwendung von stackgroup=‘one’. Trotz diesen
minimalen unterschiedes Akzeptiert die Filled Lines Grafik die
Farbauswahl, Stacked Lines jedoch nicht.
Ein weiterer mir unerklärlicher Fehler in der Dokumenterstellung
ist die änderung des Formats nach dem importieren der Librarys. Es gibt
keinen offensichtlichen Grund warum sich hier das Format ändern sollte
auf einmal füllt der Text jedoch 100% des Bildschirms was z.T. zu sehr
schwer zu leseneden Worten führt.
Wie bereits in der Analyse der Sales per Game per Year
festgestellt werden Spiele häufig auf mehreren Konsolen veröffentlicht.
Eine zusammenfassung der Spiele zum Zweck der Sales per Game Analyse wäre dafür
vonnöten.
Bei Betrachtung des Codes, welcher die Grafiken erzeugt wird den
meisten auffallen, dass oft doppelter Code durch verwendung in mehreren
Diagrammen mit nur leichten Änderungen entsteht. Zusammenfassung ist
hier durch die Nutzung von mehreren Data Frames und anwendung der
jeweiligen durchaus möglich benötigt jedoch zum Teil gravierende
überarbeitung der einzelnen Abschnitte.
Ein Filtern der Platformverkäufe pro
Jahr nach total Sales wäre deutlich besser als ein Filtern nach den
Sales in einem Jahr. Dies würde die Erzeugung eines zusätzlichen Data
Frames benötigen wäre jedoch deutlich informativer als der aktuelle
stand bei dem einige Jahre ganz aus dem Shema fallen.
Das Publischer Ranking nach
Region würde vermutlich vorallem die kleinere Region Japan einen
deutlich anderen ausgang aufzeigen, sollte nicht nach der Anzahl der
Spiele sondern beispielsweise dem wert der Verkaufszahlen gefiltert
werde. Dies führt jedoch dazu, dass unterschiedlichen Publisher
verglichen werden was den informationsgehalt minimieren würde.
Bei der Platformanalys wird den
meisten, vorallem nicht Gamingversierten Lesern aufgefallen sein das
Mobilegames im Datensatz komplett fehlen. Als die wohl am weit
vertretenste und mittlerweile umsatzstärkste
Platform beeinflusst dies den Datensatz ungemein. Allgemein sind nur
knapp 16.000 der weltweit mehr als 3.3
mio Videospiele in dem Datensatz vorhanden.
Nun zu Vermutlich dem größten Problem neben den bereits vorherig
etwähnten fehlenden Daten. Viele spiele werden auf verschiedenen
Platformen, zum teil auf Konkurrenten oder nachfolgern rereleast. Das
bedeutet das ein Spiel für mehrere Konsolen veröffentlicht wird. Diese
Daten werdem im Vorhandenen Datensatznicht zusammengeführt und kommen
dementsprechend mehrmals vor. Super Mario bros existiert beispielsweise
13 mal und Grand Theft Auto 4 belegt platz 52 auf der xboX360 und Platz
57 auf der PS3.
Literatur und Quellenverzeichnis
---
title: "Videospiel Verkäufe"
output: 
   
   html_document : 
      includes:
        after_body: footer.html
      theme: cosmo
      code_folding: hide
   html_notebook : 
      code_folding: hide
      includes:
        after_body: footer.html
      theme: cosmo
---
<center>![](Videogames.png) </center>
<center> 
# Florian Reichle 
</center>
***

### **Angaben zu den Daten**
Das verwendete Dataset des Projekts: https://www.kaggle.com/datasets/gregorut/videogamesales   
Dies besteht aus den Daten von https://www.vgchartz.com/ für die Jahre 1980 bis 2016 und umfasst die Folgenden Spalten bzw.Daten.

* Rank - Die Platzierung des Spiels nach Anzahl der Verkäufen
* Name - Der Name des Spiels
* Platform - Die Platform auf der das Spiel veröffentlicht wurde (z.B. PC,PS4, etc.)
* Year - Das Jahr der Veröffentlichung des Spiels
* Genre - Das Genre des Spiels (z.B. Sport,Action, Puzzle)
* Publisher - Der Publisher des Spiels
* NA_Sales - Die Anzahl der Verkäufe in Nord-Amerika (in millionen)
* EU_Sales - Die Anzahl der Verkäufe in Europa (in millionen)
* JP_Sales - Die Anzahl der Verkäufe in Japan (in millionen)
* Other_Sales - Die Anzahl der Verkäufe im Rest der Welt (in millionen)
* Global_Sales - Die Anzahl der Verkäufe Weltweit (in millionen)

***

### **Inhaltsverzeichnis**


1. Releaseanalyse
    + [nach Anzahl](#VideoGameReleases)
    + [nach Sales](#VideoGameReleases)
    + [nach Sales pro Game](#VideoGameReleases)
    
2. Platformanalyse
    + [Global](#Platformanalyse)
    + [nach Region](#PlatformRankingByRegion)
    + [Verkaufszhlentwicklung im laufe der Jahre](#SalesPerPlatform)
    
3. Publisheranalyse 
    + [Global](#PublisherReleases)
    + [nach Region](#PublisherRankingbyRegion)
    
4. Genreanalyse
    + [nach Anzahl](#GenreAmountGlobal)
    + [nach Verkaufszahlen](#GenreSalesGlobal)
    + [nach Region](#GenreAmountByRegion)
    
5. Genreverteilung pro Jahr
    + [nach Anzahl](#GenreAmountPerYear)
    + [nach Verkaufszahlen](#GenreSalesPerYear)
    + [nach Verkaufszahlen pro Spiel](#GenreSalesPerGamePerYear)
    
6. Publisher Genres
    + [für die Top Publisher](#GenreByPublisherGlobal)
    + [Detailanalyse Electronic Arts](#GenreByPublisherEA)
    + [Detailanalyse Nintendo](#GenreByPublisherNintendo)
    
7. Kritischer Rückblick
    + [Ausblick in die Zukunft](#AusblickInDieZukunft)
    + [Aufgetretene Probleme](#AufgetreteneProbleme)
    + [Literaturverzeichnis](#Literaturverzeichnis)

***
### Thesen

Bevor wir mit der Analyse der Daten beginnen können Stellen wir erstmal ein paar Thesen bzw. Fragestellungen auf die wir im laufe des Projekts hinterfragen bzw beantworten wollen.  

* Welche Jahre sind die besten in der Anzahl der releasten Games und Sales?  [Antwort](#VideoGameReleases)
* Werden heutzutage mehr Spiele Releast und Verkauft als noch 1980? [Antwort](#VideoGameReleases)
* Welche Jahre sind die besten in Anzahl Sales pro Game? Werden neuere Spiele automatisch mehr Gekauft? [Antwort](#VideoGameReleases)

* Welche Plattform ist die beste in Anzahl verkäufen? Welche in Anzahl der Game Releases? [Antwort](#Platformanalyse)
* Haben Ältere Platformen Automatisch mehr Spiele und Verkäufe? [Antwort](#PlatformRankingGlobal_End)
* Favorisieren verschiedene Regionen verschiedene Platformen? Verkaufen die Regionenheimischen Platformen automatisch auch die meisten Spiele? [Antwort](#PlatformRankingByRegion)
* Wie Entwickeln sich die Verkäufe pro Platform im laufe der Jahre? Haben Platformen kurz nach Release den größten "Hype"? [Antwort](#SalesPerPlatform)

* Bestimmte Publisher häufen sich in Anzahl der Spiele und der Verkäufen (z.B. Nintendo, EA, Activision Blizzard) [Antwort](#PublisherReleases)  
* Gibt es regionale Unterschiede in den Publishern? Werden Regioneninterne Publisher Favoritisiert? [Antwort](#PublisherRankingbyRegion)

* Wie sind die Genres der Spiele verteilt? Häufen sich bestimmte Genres bei Anzahl und Verkaufszahlen? Gibt es Genres die besser/schlechter Performen als sie sollten? [Antwort](#GenreAmountGlobal)   
* Gibt es regionale Unterschiede in den Genres? (Gibt es Regionen die Spezifische Genres Favorisieren welche in anderen Regionen nur eine geringe Rolle spielt?) [Antwort](#GenreAmountByRegion)

* Wie haben sich die Genres über die Jahre entwickelt? [Antwort](#GenreAmountPerYear)
* Gibt es Genres die mal großen Einfluss hatten und nun Bedeutungslos sind? [Antwort](#GenreSalesPerGamePerYear)

* Gibt es Publisher die bestimmte Genres bevorzugen bzw. Publisher deren Games eines bestimmten Genres sich besonders gut Verkaufen? [Antwort](#GenreByPublisherGlobal)


***

### Daten und Librarys
Nach dem Vorstellen der Daten und dem aufstellen der initialen Thesen können wir nun mit dem einlesen der Daten beginnen.  
Zusätzlich erstellen wir noch eine Farbpalette und importieren die Librarys

```{r setup, include=TRUE, echo=TRUE, message=FALSE}
library(readr)
library(tidyverse)
library(forcats)
library(plotly)
library(knitr, warn.conflicts = FALSE, quietly=TRUE)
library(RColorBrewer)
library(stringr)
library(dygraphs)
library(xts)
suppressPackageStartupMessages(library(dplyr))
myPalette <- brewer.pal(10, "Paired")
vgsales <- read_csv("vgsales.csv")

```

***


# Videospiel releases {#VideoGameReleases}


## Videospiel releases im laufe der Jahre {.tabset}
### Releases nach Anzahl {#VideoGameReleasesAmount}

Unsere erste These war “Welche Jahre sind die besten in der Anzahl der releasten Games und Sales?” Um dieser Fragestellung auf den Grund zu gehen müssen wir zuerst einmal die Daten der Tabelle vgsales mithilfe der Funktion *group_by(Year)* anhand der Jahre Zusammenfassen. Nun erhalten wir eine nach den Jahren zusammengefasste Tabelle deren Einträge wir mit der Funktion *dplyr::summarize(Anzahl =n())* abzählen und als Wert Anzahl abspeichern. Aufgrund der für diese analyse Fehlerhaften Daten verwenden wir noch die Funktion *filter()* um alle fehlenden Jahreseinträge sowie die Jahre 2020 und 2017 herauszufiltern. Letztere Jahre sind daher fehlerhaft, da der Datensatz 2016 erstellt wurde. Diese Daten speichern wir als *data.frame* in der Variable *grouped* ab. Im Folgenden verwenden wir ebenjenes data.frame um nur die Einträge Jahr und Anzahl zu selektieren und in der Variable *filtered* abzuspeichern. Die erhaltene Tabelle hat nun zwei Spalten: Jahr und Anzahl. Des Weiteren erstellen wir zwei weitere Variablen *ax* und *ay*welche beide eine Liste mit nur einem Attribut sind: “Title”. Nun verwenden wir *plot_ly()* um mithilfe der *type = 'scatter'* und *mode = 'lines'* Parameter ein Liniendiagramm zu erstellen. Außerdem nutzen wir die *layout()* funktion um einen Titel zu erstellen, sowie mithilfe unsere beiden Variablen ax und ay die Achsen zu beschriften.

```{r plot(AmountByYear), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Anzahl)

ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Anzahl"

)

filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Anzahl der Spielereleases von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

Betrachten wir einmal das entstandene Diagramm. Zwischen 1980 und 1993 sind hier kaum Unterschiede festzustellen und die Schwankungen können aufgrund der geringen Zahl der Veröffentlichungen (zwischen 14 und 49) vernachlässigt werden. Ab 1993 können wir dann ein stetiges Wachstum feststellen welches 1998 vorerst den Höchstwert erreicht. In den Jahren 1999 und 2000 geht die Anzahl erst einmal leicht zurück bevor sich der Wert bis 2002 von 349 auf 829 mehr als verdoppelt. Bis 2004 ist wiederum ein leichter Rückgang festzustellen auf welchem ein Stetiges Wachstum zum Höchstwert von 1428 (2008) sowie 1431 (2009) folgt. Danach folgt ein extremer und mit Unterbrechung von 2014 (582) und 2015 (614) stetiger Rückgang in den Release Zahlen auf einen Stand von 344 im Jahr 2016.

Sehen wir uns diese Zahlen einmal genauer an kommt die Frage auf Woran diese Extremen Zahlen in den Veröffentlichungen zurückzuführen sind? An diesem Punkt der Analyse können wir nur spekulieren die Spitzen könnten allerdings an den Veröffentlichungen großer, den Markt bestimmenden Plattformen wie der PS2/3, der Xbox und den Plattformen von Nintendo wie Gamecube oder Wii zurückzuführen sein. Hierzu aber später [mehr](#SalesPerPlatform).


### Releases nach Verkaufszahlen {#VideoGameReleasesSales}

Um dem zweiten Teil der Fragestellung auf den Grund gehen zu können müssen wir erneut die Daten der Tabelle vgsales mithilfe der Funktion *group_by(Year)* anhand der Jahre Zusammenfassen. Nun erhalten wir wieder die nach den Jahren zusammengefasste Tabelle deren Einträge wir mit der Funktion  *dplyr::summarize(gr_sum = sum(Global_Sales))* zusammenfassen. Dem Aufmerksamen Leser wird auffallen das hier ein kleiner aber feiner Unterschied zum vorherigen Aufruf besteht. Statt *Anzahl =n()* nutzen wir hier *gr_sum = sum(Global_Sales)*. Diese Funktion summiert alle Werte der Spalte Global_Sales auf und speichert den den Wert in die Spalte *gr_sum*. Aufgrund der für diese analyse weiterhin Fehlerhaften Daten verwenden wir erneut die Funktion *filter()* um alle fehlenden Jahreseinträge sowie die Jahre 2020 und 2017 herauszufiltern.  Diese Daten speichern wir wieder als *data.frame* in der Variable *grouped* ab. Im folgenden verwenden wir ebenjenes data.frame um nur die Einträge Jahr und *gr_sum* zu selektieren und in der Variable *filtered* abzuspeichern. Die erhaltene Tabelle hat nun zwei Spalten: Jahr und *gr_sum*. Desweiteren erstellen wir erneut die Variablen *ax* und *ay*. Nun verwenden wir *plot_ly()* um mithilfe der *type = 'scatter'* und *mode = 'lines'* Parameter ein Liniendiagramm zu erstellen. Außerdem nutzen wir die *layout()* funktion um einen titel zu erstellen, sowie mithilfe unsere beiden Variablen ax und ay die Achsen zu beschriften.

```{r plot(GameSalesByYear), include=TRUE, echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,gr_sum)

ax <- list(
  title = "Jahr"
)

ay <- list(
  title = " Verkäufe pro Jahr (in mio)"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Videospielverkäufe von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

Betrachten wir nun das entstandene Diagramm fällt uns zuerst auf, dass es dem vorherigen recht ähnlich sieht. Dies ist kaum verwunderlich und stellt keinen nennenswerten Wissensgewinn da. Der wohl Nenneswerteste unterschied ist das Fehlen des Anstiegs, welcher in der Anzahl der Gamereleases zum Jahr 2015 festzustellen war. Durch den direkten Vergleich ist dies allerdings ein guter Zeitpunkt um uns mit unserer Zweiten These auseinanderzusetzen. *"Werden heutzutage mehr Spiele Releast und Verkauft als noch 1980?"*. Diese sehen wir aufjedenfall bestätigt obwohl Festzustellen ist, dass die besten Jahre sowohl in verkäufen als auch in der Anzahl die Jahre 2008 und 2009 waren. Dies Wirft natürlich die Frage auf was der Grund für diesen Verlauf ist und wäre ein Interessanter ansatz für eine [weitere Arbeit](#AusblickInDieZukunft).

### Verkaufszahlen pro Spiel 

Die Frage die Wir allerdings beantworten können ist *"Werden neuere Spiele automatisch mehr Gekauft?"*. Dafür kombinieren wir die beiden bereits Verwendeten ansätze. 
Wir fassen wieder die daten mithilfe von *group_by(Year)* anhand der Jahre Zusammen. Die erhaltene Tabelle fassen wir wieder mit  *dplyr::summarize(gr_sum = sum(Global_Sales))* zusammen. Diesmal nutzen wir jedoch eine kombination aus *sum(Global_Sales)* und *n()*. Wir addieren die Spalte *Global_Sales*, teilen dies durch die Anzahl der Einträge und speichern den Wert in die Spalte *gamesales* (*gamesales = sum(Global_Sales)/n()*). Danach filtern wir die Daten erneut und speichern sie als *data.frame* in grouped ab. Diesmal selektieren wie die Einträge der Spalte Jahr sowie *gamesales* und speichern sie in der Variable *filtered* ab. Zuletzt erstellen wir erneut die Variablen *ax* und *ay* und verwenden *plot_ly()* um mithilfe der *type = 'scatter'* und *mode = 'lines'* Parameter ein Liniendiagramm zu erstellen sowie die *layout()* funktion um einen titel zu erstellen und mithilfe unsere beiden Variablen ax und ay die Achsen zu beschriften.

```{r plot(SalesbyGameByYear), include=TRUE, echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year) %>%
  dplyr::summarize(gamesales = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,gamesales)

ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Verkäufe pro Spiel"

)

filtered %>%
plot_ly(x = ~Year, y = ~gamesales, type = 'scatter', mode = 'lines', fill = 'tozeroy' ,colors = myPalette) %>% 
  layout(title="Videospielverkäufe pro Spiel von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```
Sahen sich die beiden Diagramme für Anzahl und Verkaufszahlen noch recht ähnlich stellt sich hier ein deutlich unterschiedlicher Verlauf da. Ist der Wert zwischen 1980 (1.26) und 1983 (0.98) noch relativ gering steigt dieser Massiv für die Jahre 1984(3.59) und 1985(3.85) bevor er 1986(1.76) und 1987(1.35) wieder absinkt. Genauso schnell wie der wert abgesunken ist steigt er allerdings auch wieder auf 3.14(1988) bevor er 1989 den Höchststand mit 4.32 erreicht. Danach sinkt der wieder ab um sich nach einem kurzen ausschlag 1992 in den Jahren bis 2014 auf einen relativ stetigen Wert Zwischen 0.5 und 0.7 einzupendeln erst 2015 und 2016 sinkt dieser unter 0.5. Diese Extremen ausschläge in den Früheren Jahren lassen sich mit der Geringen anzahl der Spiele erklären. Einzelne gute laufende Spiele machen hier noch einen Großteil des Markts aus wohingegen sich neuere spiele, sowohl gegen eine Großzahl von bereits etablierten Spiele als auch eine große Anzahl neuer Releases, durchsetzen müssen.

## {-}

***

# Platform Analyse {#Platformanalyse}

```{r noplot, echo = FALSE, message=FALSE, results='markup', include =FALSE,}
vgsales %>% 
  plot_ly(
    x=~Platform,
    stroke=I("black"),
    name="Amount by Platform") %>%
  layout(
    title="Amount by Platform")
vgsales %>% 
  plot_ly %>% 
  add_boxplot(
    x=~Platform,
    stroke=I("black"),
    name="Amount by Platform") %>% 
  layout(
    title="Amount by Platform")

vgsales %>% 
  plot_ly() %>% 
  add_bars(
    x=~Global_Sales,
    y=~Platform,
    name="Sales by Platform (in mio)") %>% 
  layout(
    title="Sales by Platform (in mio)")

```

Viedeospiele gibt es in den Unterschiedlichsten Farben und Formen. Was Sie jedoch alle gemeinsam haben ist, dass sie auf einem medium Gespielt werden. Sei es Sonys Playstation, Microsofts xBox, Nintendos Spielekonsolen wie die Wii oder der einfache desktop PC. Die Frage die Sich jeder Fan jedoch schonmal gestellt hat und über die häufig diskutiert wird ist welche ist die Beste? Da dies immer im Auge des Betrachters liegt versuchen wir zumindestens zu klären *Welche Platform ist die beste in Anzahl verkäufen? Welche in Anzahl der Game Releases?*. Zum beantworten dieser Frage ist der Vorhandene Datensatz nicht ganz optimal aber hierzu weiteres im [Fazit](#AufgetreteneProbleme).


## Platformanalyse Global {.tabset}

### nach Anzahl

Um sich einen guten Überblick über die Rankings der Plattformen zu verschaffen nutzen wir hier ein Paretodiagramm. Dies sind nach der Größe der Werte sortierte Säulendiagramme. Zum Erstellen des Diagramms brauchen wir zuerst einmal wieder unseren Datensatz den wir diesmal mithilfe des *group_by* Befehls anhand der *Platform* gruppieren. Danach nutzen wir erneut *summarize(Anzahl =n()* um die Einträge abzuzählen und den wert als Anzahl abzuspeichern. Um die Einträge der Anzahl nach zu sortieren nutzen wir zuerst den Befehl *grouped[order(grouped\$Anzahl),decreasing = FALSE]* und weisen das Ergebnis der neuen Tabelle *Ordered* zu. Dieser Befehl sieht relativ komplex aus lässt sich jedoch recht einfach aufdröseln. Order sortiert die Tabelle nach der gegebenen Spalte und der Parameter *decreasing =* gibt an ob der größte Wert am Anfang oder Ende stehen soll. Das Dollar Zeichen selektiert hierbei die Spalte mit dem dahinterstehenden Name aus der vorher stehenden Tabelle getreu nach dem Schema *Tabelle\$Spalte*. Danach müssen wir noch die Spalte *Platform* als faktor einlesen welches wir mit dem Befehl *as_factor(ordered\$Platform)* tun. Danach erstellen wir unsere beiden Variablen ax und ay zur Achsenbeschriftung. Nun kommen wir zur eigentlichen Diagrammerstellung. Wir geben die Tabelle *ordered* weiter an *plot_ly()* und nutzen *add_bars* um ein Balkendiagramm zu erstellen. Der unterschied zwischen Balken und Paretodiagramm liegt hierbei in der Parameterübergabe. Schauen wir uns die relevanten Teile einmal genauer an. Der interessante Teil passiert hierbei bei der zuweisung der X-Achse und hier sehen wir auch den Grund für unsere vorherige umwandlung der Spalte Platform zu einem faktor. *x=~fct_reorder(Platform,Anzahl, .desc="true"),y=~Anzahl* Wir nutzen den Befehel *fct_reorder()* um die Platformen nach der Anzahl sortiert her anzuordnen. Der erste Parameter ist hierbei die zu sortierende Spalte, der zweite die nach der sortiert werden soll. Der Parameter .desc steht descending und bestimmt wie sortiert werden soll, in unserem fall der größte Wert zuerst. Zu guter letzt geben wir dem Diagramm noch einen Namen, weisen die Farbpalette zu und setzen das Layout mit dem Titel sowie unseren beiden Achsenbeschriftungen.

```{r plot, echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(Anzahl =n()) 

ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "Anzahl"
)
ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Spieleanzahl pro Platform" ,colors = myPalette) %>% 
  layout(title="Spieleanzahl pro Platform",
         xaxis = ax,
         yaxis = ay
         
         )
```

Beim Betrachten des Diagramms erkennen wir das weder ganz alte noch ganz neue Platformen die Nase vorne haben. An den ersten beiden Stellen und weit abgeschlagen vom Rest der Platformen finden sich hier der DS von Nintendo (2163) und die Playstation 2 von Sony (2161). Dies ist weiter nicht Verwunderlich da beide auch die Konsolen sind die sich [Weltweit am besten verkauft haben](https://de.statista.com/statistik/daten/studie/160549/umfrage/anzahl-der-weltweit-verkauften-spielkonsolen-nach-konsolentypen/). Ein weiterer Grund für deren hohe Spieleanzahl ist vermutlich auch deren Stellung als Platzhirsche im Konsolen- bzw. Handheldmarkt. Weiterhin können wir erkennen das es meist die ältere Generationen einer Konsole sind die mehr Spiele haben. Die Playsatation 2 hat beispielsweise mehr Spiele als PS3 und PS4, die XboX360 mehr als die xBoxOne und der DS mehr als der 3DS. Dies scheint jedoch nicht auf die erste Generation zuzutreffen. Die Playstation hat mehr verkäufe als die PS4 aber weniger als PS3 und PS2. Die Xbox mehr als die XboxOne aber weniger als die Xbox360.


### nach Verkaufszahlen

Schauen wir uns nun die Verkaufszahlen der Spiele der einzelnen Platformen an. Wir verwenden hier wieder ein Paretodiagramm und gehen ähnlich des vorherigen Diagramms vor. Zuerst nutzen wir wieder die *group_by* Funktion um nach den Platformen zu gruppieren. Da wir nun aber die Verkaufszahlen betrachten wollen nutzen wir *summarize()* auf die *Global_Sales* Spalte. Nun nutzen wir die *rename()* funktion um die so entstandene Spale *sum(Global_Sales)* in *Global_Sales* umzubenennen. Dies hat keinen weiteren Nutzen außer uns im späteren Verlauf die Referenzierung der Spalte einfacher zu machen. Um später nach dieser neu erstellten Spalte sortieren zu können müssen wir diese zuerst in einen Vector umwandeln. Dies tun wir mit dem Befehl *grouped\$Global_Sales<-as_vector(grouped\$Global_Sales)*. Nun können wir die Tabelle sortieren und in der Variable ordered abspeichern 
*ordered <- grouped[order(grouped\$Global_Sales), decreasing = FALSE]*. Als letzten Schritt bevor es an die erstellung des Diagramms geht wandeln wir noch die Spalte Platform in einen Factor um *ordered$Platform <- as_factor(ordered\$Platform)* und erstellen erneut unsere Achsenbeschriftungen ax und ay. Zur erstellung des Diagramms übergeben wir unsere *ordered* Tabelle an die *plot_ly()* funktion und nutzen *add_bars* um ein Balkendiagramm zu erstellen. Hier verwenden wir wieder die Parameter *x=~fct_reorder(Platform,Global_Sales, .desc="true"), y=~Global_Sales* um den x wert, also die Platformen nach den Global Sales zu sortieren bevor wir den namen und die Farbe des Diagramms setzen. Zu guter Letzt benutzen wir noch die Layout funktion um dem Diagramm einen Titel zu geben und unsere beiden Achsenbeschriftungen zu erstellen.

```{r plot(PlatformRanking_Global), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "Verkaufszahlen (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Verkaufszahlen nach Platform" ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Platform",
         xaxis = ax,
         yaxis = ay
         )
```
Schauen wir uns das Entstandene Diagramm einmal auf fallen uns direkt zwei Dinge auf. Zum einen fehlt der Nintendo DS auf dem Spitzenplatz zusammen mit der PS2 und ist nur auf Platz 5, zum anderen ist der Unterschied zwischen den Spitzenplätzen bzw dem Spitzenplatz und dem rest der top 5 deutlich geringer. Waren es bei der Spieleanzahl noch fast 40% unterschied zwischen platz 1/2 und platz 3-4 so sind es hier nur knapp 20%. Die Restlichen plätze der Top 5 sind allerdings größtenteils gleich geblieben. Zusätzlich zum absacken des Nintendo DS von platz 1 auf platz 5 hat nur die XboX360 ihre Position in der Rangliste verändert.

## {-}

##### *Haben Ältere Platformen Automatisch mehr Spiele und Verkäufe?* {#PlatformRankingGlobal_End}

Beim Betrachten beider Diagramme oder sogar nur einem der Diagramme erkennt der Aufmerksame Betrachter relativ schnell das hier keine Pauschalantwort auf diese Fragestellung möglich ist. Dies ist aber irgendwie zu erwarten gewesen es gibt so viele Faktoren die den Erfolg einer bestimmten Platform bestimmen und es ist unmöglich dieses an einem Faktor festzulegen. Wwelche Frage wir allerdings beantworten konnten, zumindestens teilweise, ist die Frage nach der "besten Platform. Die **PS2** ist sowohl weit oben in der Spieleanzahl, als auch Spitzenreiter in den Gamverkäufen. Der Nintendo DS ist zwar in der Spieleanzahl sogar knapp vor der PS2 in den verkäufen aber weit abgeschlagen auf Platz 5. Ausschlaggebender als vergleichsargument wäre jedoch die Anzahl der Verkauften Spiele pro Spiel doch weiteres hierzu im [Ausblick in die Zukunft](#AusblickInDieZukunft)

Offensichtlich ist ein Datensatz zu Anzahl der Spieleverkäufe vorallem ein so lückenhafter nicht optimal aber dazu weiteres im [Fazit](#AufgetreteneProbleme).

***

# Regionale Unterschiede in den Verkaufszahlen der Platformen {#PlatformRankingByRegion}

Da wir nun geklärt haben welche Platformen die Nase vorne haben wäre es doch Interessant herauszufinden ob es Regionale unterschiede gibt.
*Favorisieren verschiedene Regionen verschiedene Platformen? Verkaufen die Regionenheimischen Platformen automatisch auch die meisten Spiele?*

Hierbei können wir natürlich nur die Verkaufszahlen heranziehen. Theoretisch wäre auch ein Vergleich in anzahl der Spiele möglich würde aber diese Arbeit Sprengen da der Datensatz diese Informationen nicht ohne weiteres [hergibt](#AufgetreteneProbleme).
Zum Beantworten dieser Frage benutzen wir erneut Paretodiagramme und um sich einen Groben überblick zu schaffen Kreisdiagramme. Diese haben ihre eigenen [Probleme](#AufgetreteneProbleme) bieten uns aber ein gutes Tool zur groben übersicht über die Prozentualverteilung der Konsolen und bringt etwas Abwechslung in diese bisher sehr Balkendiagramm lastige ausarbeitung.

[Einzuwenden hierbei ist](#AufgetreteneProbleme), dass die Regionen natürlich unterschiedlich viele Einwohner haben.Ein vergleich der absoluten Saleswerte ist hierbei natürlich nur wenig ausschlaggebend zeigt aber einen generellen beliebtheitstrend der Konsolen in den einzelnen Regionen auf.

## Platformvergleich {.tabset}

### Balkendiagramme {.tabset}

Die Erstellung der Paretodiagramme werde ich an dieser Stelle nicht mehr genauer erläutern, da das Grundprinzip weiterhin das gleiche bleibt einziger unterschied zwischen den verschiedenen Diagrammen ist hierbei der wert in der summarize Funktion *summarize(sum(EU_Sales))* EU_Sales für EU NA_SALES für US und JP_SALES für Japan sowie der Titel und die Achsenbeschriftungen. Eine genauere Erläuterung zur Erstellung von Paretodiagrammen gibt es [hier](#Platformanalyse).

#### Europa
```{r plot(PlatformRanking_EU1), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "EU verkäufe (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="EU Verkaufszahlen pro Platform" ,colors = myPalette) %>% 
  layout(title="EU Verkaufszahlen pro Platform",
         xaxis = ax,
         yaxis = ay
         )
```
Hatte im Globalen durchschnitt die PS2 noch deutlich die Nase vorne ist in EU die PS3 (343.71) noch vor der PS2 (339.29) und diese haben beide noch einen Recht weiten Vorsprung auf Platz 3 (280.58) und 4 (268.38) welche respektive von der Xbox360 und der Wii belegt werden. Die Playstation 1 (213.6) sichert sich in Europa einen platz in den top 5 und auch die PS4 (123.7) rückt einen Platz nach Vorne. Den wohl größten Sprung legt allerdings der PC (139.68) hin. Ist dieser Global noch auf Platz 10 so belegt er in Europa platz 7. Auch außerhalb der Top 10 gibt es einige verschiebungen aufgrund des eher Geringeren Marketshares sehen wir hier allerdings von einer genaueren Analyse ab. Zusammenfassend können wir also sagen das Europa Sony konsolen sowie den Pc überdurchschnittlich gerne Nutzen.

#### Nord-Amerika
```{r plot(PlatformRanking_NA1), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "NA verkäufe (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="NA Verkaufszahlen pro Platform" ,colors = myPalette) %>% 
  layout(title="NA Verkaufszahlen pro Platform",
         xaxis = ax,
         yaxis = ay
         )
```
Im direkten Vergleich mit EU fällt hier sofort ins Auge, dass die Playstation 2 (583.84) zwar weiterhin von dem ersten Platz verdrängt wurde, Microsofts Xbox360 (601.05) hier Sonys Playstation 3 (392.26) allerdings auf dem ersten Platz ablöst. Auch die Wii (507.71) hat erkennbar mehr Verkäufe als noch in Europa. PS4 (96.8) und PC (93.28) spiele verkaufen sich in Nord-Amerika deutlich weniger als in Europa wohingegen die Restlichen Platformen größtenteils Ähnlich verteilt bleiben.

#### Japan
```{r plot(PlatformRanking_JP1), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "JP verkäufe (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Platform,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="JP Verkaufszahlen pro Platform" ,colors = myPalette) %>% 
  layout(title="JP Verkaufszahlen pro Platform",
         xaxis = ax,
         yaxis = ay
         )
```
Japan ist wohl der größte Ausreißer der drei Regionen. Hier führt der Nintendo DS (175.57) die Liste an. Auch der Abstand auf Platz 2 ist hier größer als in den anderen Regionen welcher nicht von der Playstation 2 (Platz 3) sondern der Playstation 1 belegt wird. Weit abgeschlagen ist die PS2 (139.2 mio) von der PS1(139.82) jedoch nicht. Sonys beide Konsolen sind auch die einzigen nicht Nintendo konsolen in den Top 7. Allegemein ist hier ein großer Fokus auf Japanische unternehmen zu erkennen wenn man bedenkt das die erste, nicht japanische konsole, die Xbox 360 (12.43) auf Platz 17 ist. Japanische hersteller sind in der Spieleindustrie weit verbreitet ein so extremes Verhältnis ist Global jedoch nicht die Norm. Schauen wir uns das ganze einmal genauer als Kreisdiagramme an um die Verhältnise etwas deutlicher zu machen.

### Kreisdiagramme {.tabset}

Da wir bisher noch keine Kreisdiagramme genutzt haben schauen wir uns erst mal die Unterschiede in der Diagrammerstellung an bevor wir uns auf die Analyse ebenjener Diagramme stürzen. Der einfachheit halber schauen wir uns das ganze nur am Beispiel Europa an, die anderen Diagramme unterscheiden sich aber nur in dem Wert in der *summarize* funktion sowie den Achsen- und der Diagrbeschriftung. Der Grundaufbau der Diagramm erstellung ist hier wieder ähnlich wie bei den Paretodiagrammen. Zuerst gruppieren wir die Daten, sortieren sie nach Anzahl der Verkäufe und erstellen unsere Achsenbeschriftungen. Danach zum interessanten Teil der Diagrammerstellung welcher sich eigentlich auch nicht groß von den Paretodiagrammen unterscheidet. Wir übergeben unsere Sortierten Daten an *Plot_ly()* und verwenden die Funktion *add_pie* mit entsprechenden Parametern zur Diagramm erstellung. Diese unterscheiden sich etwas von den Paretodiagrammen. *Values* sind hierbei die Werte, die die Größe und *labels* die Bezeichnung der "Kuchenstücke" festlegen. Der letzte interessante Parameter ist *textinfo* mit welchem Festgelegt wird was als text in den Abschnitten aufgeführt wird. In unserem Beispiel nutzen wir hier *textinfo='label+percent'* umd sowohl die Bezeichnungen als auch den Genauen Prozentwert anzuzeigen.

#### Europa

```{r plot(PlatformRanking_EU2), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "EU verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent',  textposition = 'inside',
           name="EU Verkaufszahlen pro Platform" ,colors = myPalette) %>% 
  layout(title="EU Verkaufszahlen pro Platform",
         xaxis = ax,
         yaxis = ay,
         showlegend = FALSE,
         autosize = F
         )
```
Ohne direkte Globale vergleichsdiagramme können wir hier im ersten Schritt noch keine großartigen Aussagen treffen werden aber im späteren Verlauf auf diese eingehen. Was wir hier allerdings gut erkennen Können ist, dass die größten vier Platformen hier 50.5% der Gesamtverkäufe ausmachen und Sonys Konsolen sogar 28%.

#### Nord-Amerika
```{r plot(PlatformRanking_NA2), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "NA verkäufe (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent', textposition = 'inside',
           name="NA Verkaufszahlen pro Platform" ,colors = myPalette) %>% 
  layout(title="NA Verkaufszahlen pro Platform",
         xaxis = ax,
         yaxis = ay,
         showlegend = FALSE,
         autosize = F
         )
```
Beim betrachten des Diagrammes für Amerika sehen wir das die Top 4, welche weiterhin aus XboX360 Wii Ps2 und PS3 bestehen, nur noch 47.53% ausmachen. Größter Verlierer sind hier Sonys Konsolen, welche nur noch 22.23% ausmachen.

#### Japan

```{r plot(PlatformRanking_JP2), echo = TRUE,message=FALSE,results='markup',}
grouped <- vgsales  %>% 
  group_by(Platform) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Platform <- as_factor(ordered$Platform)


ax <- list(
  title = "Platform"
)

ay <- list(
  title = "JP verkäufe (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Platform,textinfo='label+percent', textposition = 'inside',
           name="JP Verkaufszahlen pro Platform" ,  rotation = 40, colors = myPalette) %>% 
  layout(title="JP Verkaufszahlen pro Platform",
         xaxis = ax,
         yaxis = ay,
         showlegend = FALSE,
         autosize = F
         
         )
```
In Japan machen die Top 4 44.23% aus bestehen aber bis auf die PS2 aus gänzlich anderen Konsolen. Da Sonys PS3 von der PS ersetzt wird halten diese weiterhin 21.6% der Top 4. Nintendo holt sich hier jedoch den Größten Anteil mit 22.63%. Ein vergleich dieser Werte ist jedoch, wie bereits im Vorspann der Platform Rankings erwähnt mit Problemen gehaft. Genaueres hierzu wie bereits erwähnt im [Fazit](#AufgetreteneProbleme).

## {-}


***

# Platform Verkaufszahlen im laufe der Jahre {#SalesPerPlatform}

Nachdem wir uns die Platform verteilung angeschaut haben stellt sich die Frage ob es im laufe der Jahre unterschiede in den Verkäufen gibt.


Um uns dies anzuschaun verwenden wir eine neue art der Grafik die wir bisher noch nicht verwendet haben. Zum erstellen der Grafik gruppieren wir zuerst wieder unsere Daten und addieren die werte der Sales pro Jahr und Platform auf. ZUsätzlich zum Filter der ungültigen Jahre filter wir allerdings alle Summen mit weniger als 60 mio in Sales. Dies ist um eine Überladung des Diagramms zu verhindern führt aber zu anderen [Problemen](#AufgetreteneProbleme). Neu in der erstellung dieses Diagramms sind auch die befehle *arrange()* und *slice()*. Arrange sortiert die Tabelle anhand der gegebenen Spalte in unserem fall ist das die Summe der Globalen verkäufe. Slice entfernt alle Spalten bis auf jene, welche wir verwenden wollen. Neu bei der Diagamm erstellung sind hier die Parameter *mode = 'none'* sowie *stackgroup = 'one'* welche die hier zu sehende Grafik erzeugen.
```{r plot(SalesPerPlatformbyYear), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Platform) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017')  %>% filter(gr_sum>60)%>%
  as.data.frame()
grouped <- grouped %>%arrange(desc(gr_sum)) %>% 
  group_by(Year, Platform) %>%
  slice(1:3)

filtered <- grouped %>% select(Year,Platform,gr_sum)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "verkäufe pro Platform (in mio)"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Platform ,colors = myPalette)%>% 
  layout(title="Verkäufe pro Platform von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```
Im ersten Moment ist die Grafik sehr verwirrend aber dröseln wir das ganze einmal genauer auf. Zuerst einmal fällt auf, dass die Jahre 1980-1988 sowie 1990-1005 und 2016 fehlen. Dies liegt an den oben gewählten Filtern und den in den Jahren pro Plattform gemessen zu geringen Verkaufszahlen. Zwischen den Jahren 1996 und 2000 ist hier nur die Playstation, welche 1994 veröffentlicht wurde zu erkennen. Im Jahre 2000 wird diese dann von der Playstation 2, welche am 04.03.2000 releast wurde abgelöst. Auch der Gameboy Advanced hier in den Jahren 2000-2003 sowie 2004 zu erkennen, obwohl dieser Global erst Mitte des Jahres 2001 releast wurde.2004 wird die Playstation 2 dann von der Xbox, welche am 22.02.2002 erstmals veröffentlich wurde, kurzzeitig abgelöst bevor die Wii(02.12.2006) mit nur einem Verkaufsmonat des Jahres 2006 die Führung übernimmt. Auch die Verkaufszahlen des Nintendo DS (02.12.2004) sind in den Jahren 2005-2010 gut erkennbar. Die XboX360 (10.12.2005) übernimmt ab 2007 den ersten Platz der Rangliste und wird erst 2014 von der PS4(15.11.2013) abgelöst. 


Allgemein ist hier ein Trend erkennbar. Meist verkaufen Platformen wie zu erwarten einige Zeit nach Release die meisten Spiele. Erstaunlicherweise ist dies jedoch nicht kurz nach Release sondern z.T. erst einige Jahre später. Interessant währe hier eine detailliertere analyse aber weiteres dazu [hier](#AusblickInDieZukunft).



***

# Publisher Vergleich {#PublisherReleases}

Nachdem wir uns nun eine Übersicht über die Platformen gemacht haben wäre es doch interessant zu wissen ob sich neben bestimmten Platformen auch bestimmte Entwickler/Publisher häufen. Anzunehmen ist hierbei das Namenhafte Publisher wie EA und Nintendo die Liste anführen. Hierzu verwenden wir wiederum Paretodiagramme. Eine genauere erklärung zur erstellung ebenjener gibt es [hier](#Platformanalyse). Einzige neuerung in diesem abschnitt ist das Kürzen der Namen um die Begriffe "Entertainment", "Interactive", "Game", "Games" und "Studios" da dies die Namen nur unnötig verlängert. Um dies zu erreichen mutzen wir die Funktion *str_remove_all()* auf die Spalte Publisher. 

## Publisher {.tabset}

### nach Anzahl
```{r plot2, echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n()) %>%  
  filter(Anzahl>100) %>% filter(Publisher!="Unknown")




PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)


ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "Anzahl"
)
ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Spiele Anzahl pro Publisher"
           ,colors = myPalette) %>% 
  layout(title="Spiele Anzahl pro Publisher",
         xaxis = ax,
         yaxis = ay
         
         )
```

Betrachten wir zuerst einmal die Anzahl der Spielereleases. Wenig überaschend ist hier EA (1351), mit jährlich veröffentlichenden namenhaften Spielen wie FIFA und Madden NFL sowie anderen bekannten Reihen wie Need for Speed, Battlefield oder Sims, anführer der Liste. An zweiter stelle befindet sich Activision (975) die unter anderem Spiele wie World of Warcraft, die Diablo reihe sowie Candy Crush entwickelten. Zum Zeitpunkt der Erstellung dieser Arbeit sind diese noch ein eigener Konzern werden allerdings vorausichtlich 2023 Teil von Microsoft. Darauf folgen in kurzen abständen Ubisoft (921), welche für Assasins Creed, Rainbox six oder Anno bekannt sind, sowie THQ  mit 715 (Gothic, Darksiders, TitanQuest). Auch Nintendo (703) mit Mario, Pokemon und Zelda sowie Sony (638), bekannt durch die Gran Tourismo und Uncharted Reihe sowie The last of Us, sind nicht weit abgeschlagen. Den letzten platz der Top Publisher belegt Take Two, welche für GTA, Borderlands und Civilization bekannt sind, mit 413.

### nach Verkaufszahlen
```{r plot(PublisherRanking_Global), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(Global_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "Verkäufe (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Verkaufszahlen pro Publisher"
           ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen pro Publisher",
         xaxis = ax,
         yaxis = ay
         )
```
Beim Betrachten der Verkaufszahlen fällt hier direkt die diskrepanz zwischen Anzahl der Spielereleases und Anzahl der Spieleverkäufe auf. Im gegensatz zu der Anzahl der Spiele (bei dem Nintendo nur auf platz 6 Sitz) dominiert Nintendo(1.786 mrd) in Sales. EA (1.1 mrd), welche noch mit Abstand die meisten spielreleases hatten sind in den Verkäufen nur noch mit deutlichem Abstand auf Platz 2. Auch die anderen Plätze verändern sich leicht die Unterschiede sind hier jedoch deutlich geringer als bei Nintendo und EA. Interessant wäre hierzu vielleicht noch ein direkter vergleich zwischen Anzahl und Sales aber genaueres dazu im [Fazit](#AusblickInDieZukunft)

## {-}



***

# Publisher Ranking nach Region {#PublisherRankingbyRegion}

Nachdem wir uns einen Allgemeinen Überblick über die Publisher gemacht haben betrachten wir die Regionalen unterschiede in den Verkaufszahlen. Hierzu verwenden wir erneut die Bereits bekannten Shemata der [Pareto-](#Platformanalyse) und [Kreisdiagramm](#PlatformRankingByRegion) kombo. Einen Refresher für die Erstellung ebenjener Diagramme gibt es via den Entsprechenden Links.

## Ranking nach Region {.tabset}
### Balkendiagramme {.tabset}
#### Europa

```{r plot(PublisherRanking_EU1), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(EU_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)


grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "EU verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="EU Verkaufszahlen pro Publisher"
           ,colors = myPalette) %>% 
  layout(title="EU Verkaufszahlen pro Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

Im vergleich zu den Globalen Verkaufszahlen fällt hier auf das EA (371.27 mio) deutlich dichter hinter Nintendo(418.74) auf dem Zweiten Platz ist. Der Abstand zwischen EA und Activision (215.53) ist dementsprechend auch deutlich größer. Die restlichen werte unterscheiden sich aber kaum.

#### Nord Amerika
```{r plot(PublisherRanking_NA1), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(NA_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "NA verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="NA Verkaufszahlen pro Publisher"
           ,colors = myPalette) %>% 
  layout(title="NA Verkaufszahlen pro Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

Auch in Nord Amerika kann EA(595.07) leicht größere Verkaufszahlen im vergleich mit Nintendo (816.87) als noch Global verbuchen. Im gegensatz zu Europa scheint jedoch Activision (429.7) in Amerika deutlich beliebter zu sein. Die weiteren Publisher sind auch weiterhin nicht Relevant.

#### Japan
```{r plot(PublisherRanking_JP1), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(JP_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "JP verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Publisher,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="JP Verkaufszahlen pro Publisher"
           ,colors = myPalette) %>% 
  layout(title="JP Verkaufszahlen pro Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

Japan Zeigt hier wohl den Deutlichsten unterschied auf. Nintendo (455.42) Dominiert hier die Verkaufszahlen mit der mehr als 6 fachen menge an verkäufen als Sony (74.1) welche sich den 2. Platz sichern. Die anderen Publisher sind alle fast gleich irrelevant in Japan. 


### Kreisdiagramme {.tabset}

#### Europa

```{r plot(PublisherRanking_EU), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(EU_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "EU verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,
           name="EU Verkaufszahlen pro Publisher"
          ,colors = myPalette) %>% 
  layout(title="EU Verkaufszahlen pro Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

Im vergleich zu den Globalen Verkaufszahlen fällt hier auf das EA (23.7%) deutlich dichter hinter Nintendo(26.7%) auf dem Zweiten Platz ist. Der Abstand zwischen EA und Activision (13.7%) ist dementsprechend auch deutlich größer. Die restlichen werte unterscheiden sich kaum.

#### Nord-Amerika

```{r plot(PublisherRanking_NA2), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(NA_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "NA verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,textinfo='label+percent',
           name="NA Verkaufszahlen pro Publisher"
          ,colors = myPalette) %>% 
  layout(title="NA Verkaufszahlen pro Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

Auch in Nord Amerika kann EA(21.3%) leicht größere Verkaufszahlen im vergleich mit Nintendo (29.3%) als noch Global verbuchen diese sind jedoch geringer als noch in Europa. Im gegensatz zu Europa scheint jedoch Activision (15.4%) in Amerika deutlich beliebter zu sein. Die weiteren Publisher sind auch weiterhin nicht Relevant.

#### Japan

```{r plot(PublisherRanking_JP2), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Publisher) %>% 
  summarize(Anzahl =n(),sum(JP_Sales)) %>%
  filter(Anzahl>100) %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )

PublisherSales <- vgsales %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]
ordered$Publisher <-str_remove_all(ordered$Publisher, "Entertainment")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Interactive")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Studios")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Games")
ordered$Publisher <-str_remove_all(ordered$Publisher, "Game")
ordered$Publisher <- as_factor(ordered$Publisher)


ax <- list(
  title = "Publisher"
)

ay <- list(
  title = "JP verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Publisher,
           name="JP Verkaufszahlen pro Publisher"
          ,colors = myPalette) %>% 
  layout(title="JP Verkaufszahlen pro Publisher",
         xaxis = ax,
         yaxis = ay
         )
```

Japan Zeigt hier wohl den Deutlichsten unterschied auf. Nintendo (80.1%) Dominiert hier die Verkaufszahlen mit der mehr als 6 fachen menge an verkäufen als Sony (13%) welche sich den 2. Platz sichern. Die anderen Publisher sind mit weniger als 2.5% alle fast gleich irrelevant in Japan. 

## {-}

Zwischen EU und US lassen sich hier kaum Unterschiede feststellen in Japan hingegen ist eine deutliche verschiebung zu erkennen. Japanische Publisher führen hierbei die Liste an und drängen andere große unternehmen von den Top spots. Dementsprechend können wir schlussfolgern das manche Regionen, vorallem Japan welches die kleinste Region ist, deutliche vorlieben in spielen bestimmter Publisher haben, welche von der Globalen norm Abweichen. Eine Genauere Analyse von Europa und Nord Amerika durch unterteilung in Länder/Staaten währe hier vermutlich deutlich interessanter wird von den Daten jedoch leider nicht angeboten.

***

# Genreverteilung der Videospiele nach Anzahl {#GenreAmountGlobal}

Da wir uns nu klar geworden sind, dass es bestimmte Publisher gibt, die beliebter sind als andere wäre es interessant herauszufinden ob bestimmte Spiele Genres beliebter sind als andere. Hierzu vergleichen wir zuerst einmal die Genres nach anzahl der Spielereleases und verwenden erneut ein [Pareto-](#Platformanalyse) und [Kreisdiagramm](#PlatformRankingByRegion). Anzumerken ist hierbei jedoch das Spiele meist mehr als einem Genre angehören in diesem Datensatz ist jedoch immer nur eins angegeben.

## Genre nach Anzahl {.tabset}

### Balkendiagramm

```{r plot(GenreAmount_GLobal1), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(Anzahl =n())

grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Anzahl, .desc="true"),
           y=~Anzahl,
           name="Videospielanzahl nach Genre"
           ,colors = myPalette) %>% 
  layout(title="Videospielanzahl nach Genre",
         xaxis = ax,
         yaxis = ay
         )

```

Der Anführer der Liste ist mit deutlichem Abstand Action (GTA,Bloodborne) mit 3316. Auf dem Zweiten platz findet sich Sports (2346) mit reihen wie FIFA und NBA2k. Den dritten Platz belegt ein Genre das aus vielen verschiedenen Genren besteht die in dieser Liste nicht aufgeführt werden mit 1739. Misc beinhaltet spiele wie Just Dance (Musik/Rhythmus) oder Minecraft ein Sandbox Survival game. Danach kommen mit geringerem Abstand der Reihe nach Role-Playing (Witcher, The Elder Scrolls) mit 1488, Shooter (Call of Duty, Doom) mit 1310, Adventure (God of War, Life is Strange) mit 1286 und Racing (Gran Tourismo, Forza) mit 1249. Danach folgen mit einem größeren Abstand Platform (Super Mario, LittleBigPlanet) mit 886, Simulation (Sims, Microsoft Flight Simulator) mit 867 sowie Fighting (Tekken, Super Smash Bros) mit 884. Zu guter letzt fehlen noch Strategy (Age of Empires, Civilisation) mit 681 sowie Puzzle (Portal,Tetris) mit 582.

### Kreisdiagramm

```{r plot(GenreAmount_GLobal2), echo = TRUE, message=FALSE, results='markup', }
grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(Anzahl =n())

grouped$Anzahl<-as_vector(grouped$Anzahl)
ordered <- grouped[order(grouped$Anzahl), decreasing = FALSE]
ordered$Genre <- as_factor(ordered$Genre)


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,
           name="Videospielanzahl nach Genre"
          ,colors = myPalette) %>% 
  layout(title="Videospielanzahl nach Genre",
         xaxis = ax,
         yaxis = ay
         )
```

Der Anführer der Liste ist mit deutlichem Abstand Action (GTA,Bloodborne) mit 20%. Auf dem Zweiten platz findet sich Sports (14.1%) mit reihen wie FIFA und NBA2k. Den dritten Platz belegt ein Genre das aus vielen verschiedenen Genren besteht die in dieser Liste nicht aufgeführt werden mit 10.5%. Misc beinhaltet spiele wie Just Dance (Musik/Rhythmus) oder Minecraft ein Sandbox Survival game. Danach kommen mit geringerem Abstand der Reihe nach Role-Playing (Witcher, The Elder Scrolls) mit 8.96%, Shooter (Call of Duty, Doom) mit 7.89%, Adventure (God of War, Life is Strange) mit 7.75% und Racing (Gran Tourismo, Forza) mit 7.53%. Danach folgen mit einem größeren Abstand Platform (Super Mario, LittleBigPlanet) mit 5.34%, Simulation (Sims, Microsoft Flight Simulator) mit 5.22% sowie Fighting (Tekken, Super Smash Bros) mit 5.11%. Zu guter letzt fehlen noch Strategy (Age of Empires, Civilisation) mit 4.1% sowie Puzzle (Portal,Tetris) mit 3.51%.

## {-}

Auffällig hierbei ist das die Größten vier Genres 53.56% der Spielereleases ausmachen. Dies ist ansich nicht weiter Verwunderlich. In der Spieleindustrie bzw allgemein, ist es ein gerne genutztes konzept Funktionierende dinge zu übernehmen. Dies ist vorallem auffällig bei Spielen, welche ganze Genres prägen. Sei es Minecraft für die Survival Games (DayZ, Rust), World of Warcraft für die MMORPG's (Final Fantasy 14, Guild Wars 2) oder die Warcraft 3 mod Dota welche das MOBA genre (League of Legends, Dota 2) nach sich gezogen hat.

***

# Genreverteilung der Videospiele nach Verkaufszahlen {#GenreSalesGlobal}

Schauen wir uns nun jedoch an ob die Verkaufszahlen die gleichen häufungen aufzeigen und verwenden wieder ein [Pareto-](#Platformanalyse) und [Kreisdiagramm](#PlatformRankingByRegion). Es gilt weiterhin die obengenannte Problematik der Genrenotation des Datensatzes.

## Verkaufszahlen {.tabset}

### Balkendiagramm

```{r plot(SalesByGenre_Global1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Verkaufszahlen nach Genre"
           ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Genre",
         xaxis = ax,
         yaxis = ay
         )

```

Auf Platz 1 und 2 der Liste befinden sich weiterhin Action (1.751 mrd) und Spots (1.33 mrd). Platz 3 belegt hier jedoch nicht Misc welches mit 809.96 mio auf platz 6 abgerutscht ist sondern Shooter (1.037 mrd). Platz 4 wird weiterhin von Role-Playing (927.37 mio) belegt. Auch Platform (831.37) verkaufen sich deutlich besser und sichern sich Platz 5. Die restlichen Genres unterscheiden sich Kaum in Anzahl und Verkaufszahlen.


### Kreisdiagramm

```{r plot(SalesByGenre_Global2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Verkaufszahlen nach Genre"
          ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Genre",
         xaxis = ax,
         yaxis = ay
        )
```

Auf Platz 1 und 2 der Liste befinden sich weiterhin Action (19.6%) und Spots (14.9%). Platz 3 belegt hier jedoch nicht Misc welches mit 9.08% auf platz 6 abgerutscht ist sondern Shooter (11.6%). Platz 4 wird weiterhin von Role-Playing (10.4%) belegt. Auch Platform (9.32%) verkaufen sich deutlich besser und sichern sich Platz 5. Die restlichen Genres unterscheiden sich Kaum in Anzahl und Verkaufszahlen.

## {-}

Beim Betrachten fällt hier auf, dass sich einige Genres deutlich besser verkaufen als andere. Vorallem Shooter und Platform spiele sind hier die Kassenschlager wenn man die Verkaufszahlen mit Anzahl der Spiele vergleicht. Die großen Genres Action und Sports sind jedoch sowohl in verkaufszahlen als auch Anzahl der Spiele unangefochten auf platz 1 und 2.

***

# Regionale Unterschiede der Genres {#GenreAmountByRegion}

Nachdem wir vorhin bei den [Platformen](#PlatformRankingByRegion) deutliche Regionale Unterschiede feststellen konnten stellt sich bei den Genres die gleiche Frage und dementsprechend auch wieder der gleiche Lösungsansatz mit [Pareto-](#Platformanalyse) und [Kreisdiagrammen](#PlatformRankingByRegion).

## Verkäufe pro Genre {.tabset}

### Balkendiagramme {.tabset}

#### Europa

```{r plot(SalesByGenre_EU1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Verkaufszahlen nach Genre (EU)"
           ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Genre (EU)",
         xaxis = ax,
         yaxis = ay
         )
```
Europa sieht wie bereits in der [Platformanalyse](#PlatformRankingByRegion) festgestellt dem Globalen Genrevergleich recht ähnlich. Action (525 mio) führt weiterhin vor Sports(376.85 mio) und Shootern (313.27 mio). Auf platz 4 ist dann der erste Unterschied feststellbar. Anstatt Role-Playing (188.06 mio) welches auf Platz 7 abgerutscht ist befindet sich hier Racing (238.39) welche den Platz tauschen. Auch Platz 5 Misc (215.98 mio) und Platz 6 Platform (201.63 mio) sind in Europa vertauscht. Allgemein scheint hier auf den hinteren Genreplätzen eine verschiebung feststellbar zu sein denn obwohl das verhältnis der Genres gleich bleibt sind zusätzlich sowohl Simulation (113.38 mio) und Fighting (101.32 mio) als auch Adventure (63.13 mio) und Puzzle (50.78 mio) vertauscht. Von den hinteren Plätzen bleibt somit einzig Strategy (45.34 mio) auf seinem vorherigen letzten platz.

#### Nord-Amerika
```{r plot(SalesByGenre_NA1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Verkaufszahlen nach Genre (NA)"
           ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Genre (NA)",
         xaxis = ax,
         yaxis = ay
         )
```
Auch in Nord-Amerika ist eine Verschiebung der Genres festzustellen. Die Top 3 sind weiterhin von Action (877.83 mio), Sports (683.35 mio) und Shooter (582.6 mio) belegt. Im gegensatz zu Europa sind hier allerdings nur Platz 4 Platform (447.05 mio), Platz 5 Misc (410.24 mio) sowie Platz 6 Racing (359.42) und Platz 7 Role-Playing (327.28 mio) vertauscht. Platz 8 bis 12 sind wie die globalen Referenzwerte angeordnet der einzige Unterschied zwische Global und Nord-Amerika ist somit die verschiebung von Role-Playing auf Platz 7.

#### Japan

```{r plot(SalesByGenre_JP1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_bars(x=~fct_reorder(Genre,Global_Sales, .desc="true"),
           y=~Global_Sales,
           name="Verkaufszahlen nach Genre (JP)" ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Genre (JP)",
         xaxis = ax,
         yaxis = ay
         )

```
In Japan befindet sich Role-Playing (352.31 mio) mit großem Abstand auf Platz 1 noch vor de sonstigen Platzhirschen Action (159.95 mio) und Sports (135.37 mio). Die ehemalige top 3 Shooter (38.28 mio) fällt in Japan auf den letzten platz ab und wird von Platform (130.77 mio) ersetzt. Misc (107.76 mio) kann sich weiterhin im mittelfeld halten wohingegen Fighting (87.35 mio) und Simulation (63.7 mio) einige Plätze gut machen können und nun auf Platz 6 und 7 vorrücken. Auch Puzzle Games (57.31 mio) erfreuen sich einer höheren beliebtheit als noch Global wohingegen Racing (56.69 mio) einen deutlichen Verlust hinnehmen muss. Adventure (52.07 mio) und Strategy (49.46 mio) bleiben jedoch weiterhin eine der Unbeliebtesten Genres.

### Kreisdiagramme {.tabset}

#### Europa
```{r plot(SalesByGenre_EU2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(EU_Sales))  %>%
rename(
    Global_Sales = "sum(EU_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)


ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Verkaufszahlen nach Genre (EU)" ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Genre (EU)",
         xaxis = ax,
         yaxis = ay
        )
```

Europa sieht wie bereits in der [Platformanalyse](#PlatformRankingByRegion) festgestellt dem Globalen Genrevergleich recht ähnlich. Action (21.6%) führt weiterhin vor Sports(15.5%) und Shootern (12.9%). Auf platz 4 ist dann der erste Unterschied feststellbar. Anstatt Role-Playing (7.73%) welches auf Platz 7 abgerutscht ist befindet sich hier Racing (9.79%) welche den Platz tauschen. Auch Platz 5 Misc (8.87%) und Platz 6 Platform (8.28%) sind in Europa vertauscht. Allgemein scheint hier auf den hinteren Genreplätzen eine verschiebung feststellbar zu sein denn obwohl das verhältnis der Genres gleich bleibt sind zusätzlich sowohl Simulation (4.66%) und Fighting (4.16%) als auch Adventure (2.63%) und Puzzle (2.09%) vertauscht. Von den hinteren Plätzen bleibt somit einzig Strategy (1.86%) auf seinem vorherigen letzten platz.


#### Nord-Amerika

```{r plot(SalesByGenre_NA2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(NA_Sales))  %>%
rename(
    Global_Sales = "sum(NA_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Verkaufszahlen nach Genre (NA)",colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Genre (NA)",
         xaxis = ax,
         yaxis = ay
        )
```

Auch in Nord-Amerika ist eine Verschiebung der Genres festzustellen. Die Top 3 sind weiterhin von Action (20%), Sports (15.6%) und Shooter (13.3%) belegt. Im gegensatz zu Europa sind hier allerdings nur Platz 4 Platform (10.2%), Platz 5 Misc (9.34%) sowie Platz 6 Racing (8.18%) und Platz 7 Role-Playing (7.45%) vertauscht. Platz 8 bis 12 sind wie die globalen Referenzwerte angeordnet der einzige Unterschied zwische Global und Nord-Amerika ist somit die verschiebung von Role-Playing auf Platz 7.

#### Japan

```{r plot(SalesByGenre_JP2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Genre) %>% 
  summarize(sum(JP_Sales))  %>%
rename(
    Global_Sales = "sum(JP_Sales)"
    )
grouped$Global_Sales<-as_vector(grouped$Global_Sales)
ordered <- grouped[order(grouped$Global_Sales), decreasing = FALSE]

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

ordered%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,
           name="Verkaufszahlen nach Genre (JP)" ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen nach Genre (JP)",
         xaxis = ax,
         yaxis = ay
        )
```

In Japan befindet sich Role-Playing (27.3%) mit großem Abstand auf Platz 1 noch vor de sonstigen Platzhirschen Action (12.4%) und Sports (10.5%). Die ehemalige top 3 Shooter (2.97%) fällt in Japan auf den letzten platz ab und wird von Platform (10.1%) ersetzt. Misc (8.35%) kann sich weiterhin im mittelfeld halten wohingegen Fighting (6.77%) und Simulation (4.93%) einige Plätze gut machen können und nun auf Platz 6 und 7 vorrücken. Auch Puzzle Games (4.44%) erfreuen sich einer höheren beliebtheit als noch Global wohingegen Racing (4.39%) einen deutlichen Verlust hinnehmen muss. Adventure (4.03%) und Strategy (3.83%) bleiben jedoch weiterhin eine der Unbeliebtesten Genres.

## {-}

Zu erkennen ist hier erneut das Amerika und Euopa recht ähnlich interessen haben und nur auf den mittleren und hinteren plätzen unterschiede aufweisen. Nord-Amerika ist als der größte Markt wie zu erwartend am nächsten an den Globalen Referenzdaten wohingegen Japan ein gänzlich anderes Genreshema erkennen lässt. In Japan dominiert Role-Playing welches sich in Europa und Amerika nur auf platz 7 befindet welches durch die Japanische Kultur geprägt auch sinn ergibt.

***

# Genreentwicklung im laufe der Jahre nach anzahl {#GenreAmountPerYear}

Nachdem wir uns nun Über die Genreverteilung Global und in den einzelnen Regionen ein Bild gemacht haben wäre es interessant anzuschauen wie sich die Genres im Laufe der Jahre entwickelt haben und ob sich ein Trend bei Gewissen Genres erkennen lässt. Als erstes Betrachten wir reine Anzahl der Spielereleases und [später](#GenreSalesPerYear) die verkaufszahlen. Hierzu verwenden wir verschiedene Lineplots die sich in der Datenvorbereitung nicht großartig von den [Pareto-](#Platformanalyse) und [Kreisdiagrammen](#PlatformRankingByRegion) unterscheidet. Die unterschiede in der Diagramm erstellung werde ich jedoch im Folgenden aufzeigen.

## Anzahl der Spiele pro Genre pro Jahr {.tabset}

### Lines

Die erstellung des Lines Diagrammes ist wohl die simpelste. Wir verwenden unsere vorgefiltertes data.frame *filtered* und übergeben dies an die *plot_ly()* funktion. Danach nutzen wir *add_lines* um ein Liniendiagramm zu erstellen und setzen die Parameter. Der X-Wert ist das *Year*, der Y-Wert die *Anzahl*. Als *color* wählen wir das Genre und unsere Farbtabelle übergeben wir an die funktion via *colors=*.

```{r plot(AmountOfGamesByGenrebyYear1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Anzahl"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~Anzahl, color=~Genre,colors = myPalette) %>% 
 layout(title="Anzahl der Spielereleases von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```
Im ersten moment ist dieses Diagramm recht unübersichtlich doch bei genaueren Betrachtung kann ein aufmerksamer Betrachter bereits einige Dinge erkennen. Zum einen sehen wir das zwischen 1993 und 2003 tatsächlich Sports das meist verkaufte Genre war bevor es von Action abgelöst wurde. Misc games erfreuten sich zwischen 2005 und 2011 großer beliebtheit bevor diese wieder in der Versenkung verschwanden. Auch Adventure games waren zwischen 2007 und 2010 am beliebtesten.

### Filled Lines

Die Erstellung des Filled Lines Diagrammes unterscheides sich etwas von dem einfach Lines-Plot. Anstatt der *add_Lines* funktion übergeben wir hier direkt die Parameter mit an *plot_ly()*. X ist weiterhin das Jahr, Y die Anzahl, die Farbtablette *colors* und *color=Genre*. Die Unterschiede sind hier der *type* parameter welcher auf scatter gesetz wird, *mode* welches none ist und *fill* welches durch *tozeroy* die füllung bis zur y Achse erzeugt.

```{r plot(AmountOfGamesByGenrebyYear2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Anzahl"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Anzahl der Spielereleases von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

Einige feinere unterschiede Lassen sich hier deutlich besser erkennen als noch im Lines Diagramm. Man erkennt beispielsweise den großen Wachstum von Strategy games zwischen 1996 und 1998 bevor diese 2000 stark abflachen und nicht mit dem allgemeinen Wachstum der anderen Genres mithalten können. Auch der große Wachstum von Racing games zwischen 200 und 2004 ist gut erkennbar.

### Stacked Lines {.active}

Da stacked Lines sehr übersichtlich und gut darin sind sich einen Groberen überblick über die Daten zu schaffen sind diese hier als erste Ansicht vorausgewählt. Um die hinzugehörende Texte hundertprozentig verstehen zu können ist es aber hilfreich zuerst den Lines und Filled Lines tab zu studieren.

Die Erstellung des stacked Lines Diagramm ist den Filled Lines sehr ähnlich. Einziger unterschied ist die Abwesenheit des *fill* parameters und stattdessen die verwendung von *stackgroup='one'* welches die stacked Lines erzeugt.

```{r plot(AmountOfGamesByGenrebyYear3), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Anzahl"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>% 
  layout(title="Anzahl der Spielereleases von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

Leider sind die Farben aufgrund eines Fehlers hier etwas fehlerhaft mehr dazu im [Fazit](#AufgetreteneProbleme) Beim Betrachten des Stacked Line plots sind jedoch trotzdem einige Dinge direkt sehr gut zu erkennen. Man sieht welche Genres ein größeres Wachstum hinlegen als andere. Sowohl Shooter als auch Puzzle und Platform Games bleiben in den 2010er jahren relativ gleichbleibend. Action, Strategz, Misc und Sports Games können jedoch ein deutliches Wachstum aufzeigen.


### Genreverschiebung

Schauen wir uns nun die Erstellung der zum vergleichen der Genres wohl interessantesten Grafik an. Die erstellung ist hier quasi gleich zu den Stacked Lines. Einzige neuerung ist das hinzufügen des Parameters *groupnorm = 'percent'* welches die Y-Achse von dem wert der Anzahl zu Prozentwerten ändert. Auch hier sind jedoch die Farben leider [Fehlerhaft](#AufgetreteneProbleme).

```{r plot(AmountOfGamesByGenrebyYear4), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(Anzahl =n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,Anzahl)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Prozent %"

)


filtered %>%
plot_ly(x = ~Year, y = ~Anzahl, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Marketshare Genreverschiebung in % von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

Beim Betrachten fällt hier direkt auf, dass Action Games 1980-1984 einen großen Marktanteil, teilweise bis hin zu 50% ausgemacht haben. Diese bis 1994 auf gerademal 3% absinken bevor der Stetige Wachstum beginnt bis sie 2016 wieder bei Knap 40% enden. Auch die große Marktpräsenz von Platform Spielen zwischen 1984 und 1992 ist gut erkennbar wohingegen Racing Games sich zwischen 1994 und 2004 der größten beliebtheit erfreuen.

## {-}

Hierbei zu erkennen ist Obwohl die Anzahl der Jährlichen Spielereleases über die Jahre hinweg stetig wächst bleiben die Meisten Genres ähnlich viel vertreten. Auffällig sind hierbei Strategy-Games die erst 1991 das erste mal auftretem Seitdem obwohl sie Leicht an Marketshare verlieren grob gleich bleiben. Außerdem sind Action Games die Spiele mit der wohl größten volatilität. Sind es 1982 noch fast 50% der Gamereleases fällt deren aufkommen 1084 schon auf nur noch knapp 10% ab und 1986 steigt der Wert wieder auf fast 30%. Dieser Trend setzt sich fort bis 1996 ab welchem Zeitpunkt sich Action Games von 3.6% über die Jahre bis 2016 bis 35% entwickeln.

***

# Genreentwicklung im laufe der Jahre nach Verkaufszahlen {#GenreSalesPerYear}

Schauen wir uns an wie sich die verkäufe entwickelt haben. Hierzu verwenden wir die gleichen Diagramme wie bereits bei der Betrachtung der Spiele Anzahl. Eine erklärung der erstellung der Diagramme gibt es [hier](#GenreAmountPerYear).

## Verkäufe pro Jahr {.tabset}

### Lines
```{r plot(SalesByGenrebyYear1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~gr_sum, color=~Genre ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen der Spielereleases von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

Beim ersten Betrachten  fällt hier direkt die hohe volatilität der einzelnen Graphen auf, welches durch den hohen Einfluss einiger gutlaufender Games auf die Verkaufszahlen zurückzuführen ist. Am einfachsten ist dies zwischen 1980 und 1992 erkennbar. 1981 ist ein spike in Action Games erkennbar, nametlich durch die veröffentlichung namentlicher spiele wie Frogger und Pitfall. Im Jahr 1984 erkennbar ist dann der spike von Shootern durch Duck-Game sowie Platform games in 1985 durch Super Mario Bros. Super Mario prägt die Historie der Platform Games auch zwischen 1988 und 1990 mit Super Mario Bros 3 und Super Mario World. Das Spiel welches 1989 einen ausschlag der Puzzle-Games verursacht dürfte sogar Lesern, welche nicht Teil der Gaming-Community sind ein begriff sein: Tetris.

### Filled Lines

```{r plot(SalesByGenrebyYear2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Verkäufe (in mio)"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen der Spielereleases von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

Durch Betrachten des Filled Line Plots erkennen wir gut den Hoch der Strategiespiele im Jahr 1999 durch spiele wie Pokemon Stadium, Warzone 2100 oder Age of Empires II. Auch die Spikes der Role-Playing Games im gleichen Jahr durch Pokemon Gold/Silber und Final Fantasy VIII sowie 1996 durch Pokemon Rot/Blau sind deutlich erkennbar.

### Stacked Lines {.active}

```{r plot(SalesByGenrebyYear3), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Verkäufe (in mio)"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Verkaufszahlen der Spielereleases von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

Stacked Lines sind vermutlich das Beste Diagramm um Verkaufszahlen mit der Anzahl zu vergleichen. Am auffälligsten hier sind, dass die Volatilität in den früheren Jahren (1980-1995) bei geringerer präsenz von Videospielen deutlich größer ausfällt als in der anzahl der Videospiele. In den Späteren Jahren vorallem ab 2003 fallen die Schwankungen hier jedoch deutlich geringer aus, was vermutlich an der höheren Masse von Videospielen und damit einem breit gefächerterem Nutzerinteresse liegt.

### Genreverschiebung

```{r plot(SalesByGenrebyYear4), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)

ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Prozent %"

)


filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre ,colors = myPalette)%>% 
  layout(title="Marketshare Genreverschiebung in % von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

Durch die hohe Volatilität ist die Grafik in den früheren Jahren vorallem zwischen 1980 und 1992 sehr durcheinandern und Teilweise recht schwierig zu lesen. In den darauf folgenden Jahren ist es aber deutlich leichter bestimmte dinge wie das erstmalige auftretens der Strategiespiele 1992 oder die fast Vollständige Abstinenz von Puzzle Games zwischen 1995 und 2002 sowie ab 2012 zu erkennen.

## {-}

Wie zu erwarten lässt sich hier ein Großer overlap zu den Anzahl der Gamereleases feststellen es kann jedoch eine Hohe Volitilität durch einzelne Spielereleases vorallem in früheren Jahren festgestellt werden. Dies hat den Grund das einige "Kassenschlager" hier einen großteil des Marktes ausmachen und ihn somit stark beeinflussen. Anzumerkten ist jedoch das Spiele gerne Rereleast werden vorallem auf unterschiedlichen Konsolen, dies in unserem Datensatz jedoch nicht zusammegeführt wird. Weiteres hierzu im [Fazit](#AufgetreteneProbleme)

***

# Genreentwicklung im laufe der Jahre nach Verkaufszahlen pro Spiel {#GenreSalesPerGamePerYear}

Nachdem wir nun Analysiert haben wie sich die Anzahl der Spielereleases sowie die Verkaufszahlen entwickelt haben wäre es doch interessant beides gegenüberzustellen und direkt zu vergleichen. Hierzu verwenden wir erneut die bereits bekannten [Diagramme](#GenreAmountPerYear) nutzen jedoch in der *dplyr::summarize()* funktion die Summe der Verkaufszahlen welche wir durch die Anzahl der Einträge teilen.

## Verkäufe pro Spiel pro Jahr {.tabset}

### Lines
```{r plot(SalesPerGamePerGenrebyYear1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Verkäufe pro Spiel"

)

filtered %>%
plot_ly() %>% 
  add_lines(x=~Year,
           y=~gr_sum, color=~Genre ,colors = myPalette) %>% 
  layout(title="Verkäufe pro Spiel nach Genre von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

Im Lines-Plot erkennen wir direkt die in der [Verkaufszahlanalys](#GenreSalesPerYear) genannten Extreme welche durch einzelne Spiele, vorallem in den früheren Jahren, beeinflusst werden. Am deutlichsten ist dies in Shooter Games 1984 durch Duck-Game und Platform spiele 1985 durch Super Mario Bros. Auch Tetris (Puzzle 1989) sowie Super Mario Bros 3 (Platform 1988) und Super Mario World (Platform 1990) sind deutlich erkennbar. Neu erkennbar ist hier der Ausschlag in Racing games 1992 durch den Klassiker Super Mario Kart wessen Nachfolger bis heute auf fast jeder Nintendo Konsole veröffentlicht wurden.

### Filled Lines {.active}

In dem Fall der Verkäufe Pro Jahr sind die Stacked Lines leider wenig ausschlaggebend und daher auch nicht als erste ansicht vorausgewählt. Zum verstehen der Analyse sollte jedoch der Lines-Tab zuerst gelesen werden.

```{r plot(SalesPerGamePerGenrebyYear2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Verkäufe pro Spiel"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', fill = 'tozeroy',color = ~Genre ,colors = myPalette) %>% 
  layout(title="Verkäufe pro Spiel nach Genre von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )

```

Beim Betrachten der Filled-Lines fällt auf das neben den Bereits genannten Extremen Racing games auch im Jahre 1990 schon einen Hochpunkt durch F-1 Race erfuhr. Auch das Extrem des Action genres 1987 durch Zelda II: The Adventure of Link ist hier deutlicher erkennbar.

### Stacked Lines 

```{r plot(SalesPerGamePerGenrebyYear3),echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Verkäufe pro Spiel"

)

filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',color = ~Genre, colors = myPalette)%>% 
  layout(title="Verkäufe pro Spiel nach Genre von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

Stacked Lines ist hier für eine Analyse der einzelnen Spielegenres leider nicht hilfreich. Der aufmerksame Beobachter wird sich jedoch an eine der ersten Grafiken erinnern in denen wir [die Sales pro Game](#VideoGameReleases) analysiert haben und sich Fragen warum die Werte hier deutlich höher ausfallen als noch bevor. War in der Analyse ohne Genres der Maximalwert noch bei 4 so ist er Hier bei mehr als 20. Dies liegt vorallem daran, dass Action games in den Früheren Jahren einen großteil der Releases ausmachen bei den verkaufszahlen aber eher gering ausfallen und den durchschnitt daher herunterziehen. Sind die Spiele nach Genre aufgeteilt beeinflusst das schlecht performende Action Genre die Verkaufszahlen pro Spiel der anderen jedoch nicht und so erhalten wir additiv eine deutlich größere Zahl als zuvor.

### Genreverschiebung 

```{r plot(SalesPerGamePerGenrebyYear4), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>%                                 
  group_by(Year, Genre) %>%
  dplyr::summarize(gr_sum = sum(Global_Sales)/n()) %>% filter(Year!='N/A')%>%filter(Year!=2020) %>% filter(Year!='2017') %>%
  as.data.frame()


filtered <- grouped %>% select(Year,Genre,gr_sum)
ax <- list(
  title = "Jahr"
)

ay <- list(
  title = "Prozent %"

)
filtered %>%
plot_ly(x = ~Year, y = ~gr_sum, type = 'scatter', mode = 'none', stackgroup = 'one',groupnorm = 'percent',color = ~Genre, colors = myPalette)%>% 
  layout(title="Marketshare in Verkäufe pro Spiel nach Genre von 1980-2016",
         xaxis = ax,
         yaxis = ay
         )
```

Durch die hohe volatilität in den Früheren Jahren ist auch hier wie bei den Verkaufszahlen das Genreshift Diagramm wenig ausschlaggebend. AB 1994 kann man jedoch deutlich erkennen wir sich die Genres im laufe der Jahre entwickeln. Shooter werden deutlich beliebter wohingegebn Role-Playing games auf dem absteigenden Ast sind.

## {-}

Auch hier ist wie erwartet die Entwicklung Prozentual ähnlich. Auffällig ist jedoch das Shooter trotz ihrer geringen Vertretung in der Prozentualen Verteilung 1984 sowie 2014,2015 und 2016 die Nase Vorne haben. Platform Games haben 1985,1988 und 1990 die Nase Vorne. Die Hochzeit der Puzzle Games sind unangefochten 1988 mit dem Weltweitbekannten und auf Platz 6 der meistverkauften videospiele: Tetris. Auffällig sind vorallem die Moderneren entwicklungen. Sind in den 1996-2005er Jahren Role-Playing und somit langsame immersive erlebnisse noch deutlich Beliebter haben heutzutage Shooter mit ihrem Rundenbasiertem, "Fast Paced" also schnellem spielfluss die Nase Vorne. In der Modernen Welt ist es deutlich einfacher und für Viele leute weniger Zeitintensiv kurz eine Runde von 15-45 minuten zu spielen als sich Stundenlang in eine Rolle hineinzuversetzen. Vielen Menschen fehlt einfach Zeit oder Geduld um sich in der Zeit von modernen Medien wie Tik-Tok oder Instagramm, welche sich auf kurze erlebnisse von oft wenigen Sekunden spezialisiert haben, in ein Immersives erlebnis hereinzuversetzen.

***

# Genreverteilung nach Publisher {#GenreByPublisherGlobal}  

Da wir nun sowohl Genres als auch Publisher betrachtet haben wäre es doch der einzig logische schritt diese beiden Daten zusammenzuführen und zu vergleichen. Gibt es hier Publisher die verschiedene Genres bevorzugen bzw. deren Bestseller sich in bestimmten Genres Tummeln?

Hierzu verwenden wir ein stacked Bar-Plot. Der beginn der Diagrammerstellung ist hierbei ähnlich wie noch bei [Paretodiagrammen](#Platformanalyse). Relativ schnell fällt hier jedoch auf das wir anstatt nur eines Dataframes Zwei Produzieren. Zum einen der bereits bekannte *grouped* Dataframe welcher Publisher, Genre und Verkaufszahlen ebenjener Genres beinhaltet. Zum anderen *PublisherSales* welcher eine Liste der Publisher mit Gesamtverkaufszahlen von mehr als 300 mio enthält. Diesen verwenden wir im weiteren verlauf um aus unserem *grouped* Datensatz alle Publisher zu entfernen die sich nicht in *PublisherSales* befinden. Das geschieht mit hilfe des *filter()* commands und dem Schlagwort *%in%*. Der rest der Diagrammerstellung verhält sich equivalent zur [Publisheranalyse](#PublisherReleases) mit dem unterschied das die Bars bei der Diagrammerstellung nicht sortiert werden.


## Genreverteilung pro Publisher {.tabset}

### Verkäufe

```{r plot(SalesGenrebyPublisher), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) 

PublisherSales <- grouped %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)

grouped <- grouped %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)

grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")

  

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

grouped%>%
  plot_ly(x=~Publisher,
           y=~Global_Sales,
            type='bar',
           color=~Genre, colors = myPalette)  %>% 
  layout(title="Verkäufe pro Genre pro Publisher",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )


```

Beim Betrachten der Verkaufszahlen fällt direkt auf, dass die meisten Publisher bestimmte Genres präferieren. Activision haben mit Call of Duty einen großteil ihrer verkäufe im Shooter Genre. Das Electronic Arts mit FIFA und MaddenNFL im Sport Genre breit vertreten sind ist wenig Verwunderlich. Shootern (Battlefield) und Racing (Need for Speed) sind jedoch auch sehr Beliebte Genres bei dem US-basiertem Gaming riesen. Nintendo spezifiziert sich wenig Verwunderlich auf Platform (Super Mario) und Role-Playing(Pokemon). Sony hingegen fächern ihr angebot relativ breit und haben neben 110.57 mio in Racing auch 104 mio in Platform, 80 mio in Misc und 94.5 mio in Action. Take-Two mit Grand Theft Auto und Read dead Redemption spezifieren sich wenig verwunderlich auf Action wohingegen sich THQ wieder relativ breit fächert. Zu guter letzt fährt Ubisoft eine zweigeteilte Schniene mit Action (Assassin's Creed) und Misc (Just Dance).

### Anzahl

```{r plot(AmountGenrebyPublisher), echo = TRUE, message=FALSE, results='markup', }



grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n(),sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    )

PublisherSales <- grouped %>% 
  group_by(Publisher) %>% 
  summarize(sum(Global_Sales)) %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% filter(Global_Sales>300)



grouped <- grouped  %>% filter(Publisher %in% PublisherSales$Publisher)

grouped$Global_Sales<-as_vector(grouped$Global_Sales)
grouped$Publisher <-str_remove_all(grouped$Publisher, "Entertainment")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Interactive")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Studios")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Games")
grouped$Publisher <-str_remove_all(grouped$Publisher, "Game")



ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

grouped%>%
  plot_ly(x=~Publisher,
           y=~Anzahl,
            type='bar',
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Anzahl pro Genre pro Publisher",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack'
         )



```

Betrachten wir die Anzahl der Spiele und stell diese den Verkaufszahlen gegenüber fällt hier vorallem auf, dass Firmen mit Focus in den Verkaufszahlen diese in der Produktion noch mehr Prioritisieren. Interessant ist auch, das Activison produktionsfocus deutlich mehr auf action Games liegt als auf Shootern diese sich im vergleich jedoch deutlich schlechter verkaufen.

## {-}

Bei dem vergleich der Werte ist hier zu bemerken, dass die meisten Publisher Hierbei sich mit der Anzahl der Spiele und den Sales gut abdecken. Die auffälligsten diskrepanzen sind hierbei EA mit dem Sports Genre und ihren järlich releasten Spielen FiFa/NBA2k etc. sowie Nintendo mit der Platformreihe Super Mario. 

***


# Genreverteilung für Publisher Electronic Arts{#GenreByPublisherEA} 

Schauen wir uns diese Beiden Firmen noch einmal im Detail an. Hierzu verwenden wir erneut [Pareto-](#Platformanalyse) und [Kreisdiagramm](#PlatformRankingByRegion) die uns bereits aus vorderen Teilen der Ausarbeitung bekannt sind.

## Genre für Electronic Arts {.tabset}

### Balkendiagramme {.tabset}

#### Verkaufszahlen 

```{r plot(GenrebyPublisherEA1), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Electronic Arts")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Global_Sales,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Verkaufszahlen für Electronic Arts",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack',
         showlegend = FALSE
         )

```

Beim Betrachten der Sales erkennen wir das wie bereits vorher festgestellt Sports (479.67 mio) an erster Stelle steht. Mit deutlichem Abstand danach folgen Shooter (158.26 mio), Racing (145.77 mio) und Action (115.54 mio). Das einzig andere Relevante Genre ist Simulation mit 89.53 mio in Sales. Role-Playing (35.3 mio), Fighting (31.39 mio), Misc (24.95 mio) sowie Strategy (14.08 mio), Platform (6.53 mio), Adventure (4.75 mio) und Puzzle (4.55 mio) spielen eine eher untergeordnete Rolle.

#### Anzahl

```{r plot(AmountGenrebyPublisherEA1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Electronic Arts")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)


grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Anzahl,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Anzahl der Spielereleases nach Genre für Electronic Arts ",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack',
         showlegend = FALSE
         )

```

In der Detaillansicht sehen Anzahl der Spiele und Sales deutlich geringer aus. Den ersten Platz belegt weiterhin Sports (561) vor Action (183), Racing (159), Shooter (139) und Simulation (116). Auch die eher irelevanten Genres wie Misc (46), Fighting (39) und Strategy (37) sind weiterhin kaum vertreten.

### Kreisdiagramme {.tabset}

#### Verkaufszahlen 

```{r plot(GenrebyPublisherEA2), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Electronic Arts")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent', rotation = 110, sort = FALSE,
           name="Verkaufszahlen pro Genre für Electronic Arts" ,colors = myPalette) %>% 
  layout(title="Verkaufszahlen pro Genre für Electronic Arts",
         xaxis = ax,
         yaxis = ay,
         showlegend = FALSE,
         autosize = F
         )


```

Beim Betrachten der Sales erkennen wir das wie bereits vorher festgestellt Sports (43.2%) an erster Stelle steht. Mit deutlichem Abstand danach folgen Shooter (14.3%), Racing (13.1%) und Action (10.4%). Das einzig andere Relevante Genre ist Simulation mit 8.06% der Sales. Role-Playing (3.18%), Fighting (2.83%), Misc (2.25%) sowie Strategy (1.27%), Platform (0.588%), Adventure (0.428%) und Puzzle (0.41%) spielen eine eher untergeordnete Rolle.

#### Amnzahl

```{r plot(AmountGenrebyPublisherEA2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Electronic Arts")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = TRUE, rotation = 90,
           name="Anzahl der Spielereleases pro Genre für Electronic Arts" ,colors = myPalette) %>% 
  layout(title="Anzahl der Spielereleases pro Genre für Electronic Arts",
         xaxis = ax,
         yaxis = ay,
         showlegend = FALSE,
         autosize = F
         )

```

In der Detaillansicht sehen Anzahl der Spiele und Sales deutlich geringer aus. Den ersten Platz belegt weiterhin Sports (41.5%) vor Action (13.5%), Racing (11.8%), Shooter (10.3%) und Simulation (8.59%). Auch die eher irelevanten Genres wie Misc (3.4%), Fighting (2.89%) und Strategy (2.74%) sind weiterhin kaum vertreten.

## {-}

Schauen wir uns EA hier im Detail an fällt auf das die Diskrepanz zwischen Sales und Anzahl der Gamereleases für EA bei Sports gar nicht so groß ist (41.5% vs 43.2%) wie vorher gedacht. Die größeren diskrepanzen sind hier Shooter welches nur 10% der Gamereleases sind aber gut 15% der Sales und Action mit 13.5% der Gamereleases und 10.4% der Sales.

# Genreverteilung für Nintendo {#GenreByPublisherNintendo} 

Nachdem wir nun herausgefunden haben das bei Electronic Arts die Diskrepanz zwischen Sales und Anzahl der Spiele gar nicht so groß ist wie vorher gedacht betrachten wir nun die gleichen Daten für Nintendo. Die Frage die sich hier stellt ist ob bei Nintendo ein ähnlicher verlauf feststellbar ist oder ob sich bei diesen bestimmte Genres einfach deutlich besser verkaufen als sie sollten.

***

## Genreverteilung für Nintendo {.tabset}

### Balkendiagramme {.tabset}

#### Verkaufszahlen

```{r plot(GenrebyPublisherNintendo1), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Nintendo")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Global_Sales,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Verkaufszahlen pro Genre für Nintendo",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack',
         showlegend = FALSE
         )


```

Wie bereits in der [Genreanalyse der Publisher](#GenreByPublisherGlobal) festgestellt verkaufen sich Platform-Spiele (427.21 mio) für Nintendo am besten. Doch auch Role-Playing (284.9 mio), Sports (218 mio) und Misc (180.67 mio) machen keinen unwesentlichen Teil ihrer Verkäufe aus. Selbst die weniger Prominenten Genres wie Racing (151.3 mio), Action (128.18 mio) und Puzzle (124.88 mio). verkaufen sich immernoch deutlich besser als die entsprechenden Spielegenres der Konkurrenz EA. Am deutlichsten ist der Unterschied vermutlich bei den ganz "kleinen" Genres Simulation (85.27 mio), Shooter (69.73 mio), Fighting (53.35 mio) und Adventure (35.71). Auch wenn diese sich nicht an der Exakt gleichen stelle in der Rangliste der Sales befinden hat der letzte Platz von Nintendo Strategy (27.35%) dennoch mehr als das 6 Fache an Sales als der von EA. Trotz das Nintendo mehr Total Sales hat als Electronic Arts ist dieser wert nicht 6 mal so groß sondern umfasst nichtmal das doppelte.

#### Anzahl
```{r plot(AmountGenrebyPublisherNintendo1), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Nintendo")



ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)



grouped%>%
  plot_ly() %>% add_bars(x=~Genre,
           y=~Anzahl,
           color=~Genre ,colors = myPalette)  %>% 
  layout(title="Anzahl der Spielereleases nach Genre für Nintendo",
         xaxis = ax,
         yaxis = ay,
         barmode = 'stack',
         showlegend = FALSE
         )

```

Im ersten Moment fällt direkt auf, dass der Ausschlag von Platform (112) hier deutlich geringer ausfällt als noch in den Verkaufszahlen. Sowohl Role-Playing (106) als auch Misc (100) umfassen nur ein paar weniger Spiele. Auch das Mittelfeld umfasst mit Action (79), Puzzle (74) und Sports (55) immernoch eine Relativ große Anzahl an Spielen. Selbst die hinteren Plätze mit Racing (37), Adventure (35) und Strategy (32) sind nur knapp vor Simulation (29), Shooter (26) und Fighting (18).

### Kreisdiagramme {.tabset}

#### Verkaufszahlen

```{r plot(GenrebyPublisherNintendo2), echo = TRUE, message=FALSE, results='markup', }


grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(sum(Global_Sales))  %>%
rename(
    Global_Sales = "sum(Global_Sales)"
    ) %>% 
  filter(Publisher == "Nintendo")


grouped$Global_Sales<-as_vector(grouped$Global_Sales)

ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Verkäufe (in mio)"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Global_Sales,labels=~Genre,textinfo='label+percent',sort = TRUE,
           name="Verkäufe nach Genre für Nintendo" ,colors = myPalette) %>% 
  layout(title="Verkäufe nach Genre für Nintendo",
         xaxis = ax,
         yaxis = ay,
         showlegend = FALSE,
         autosize = F
         )


```

Wie bereits in der [Genreanalyse der Publisher](#GenreByPublisherGlobal) festgestellt verkaufen sich Platform-Spiele (23.9%) für Nintendo am besten. Doch auch Role-Playing (15.9%), Sports (12.2%) und Misc (10.1%) machen keinen unwesentlichen Teil ihrer Verkäufe aus. Selbst die weniger Prominenten Genres wie Racing (8.47%), Action (7.17%) und Puzzle (6.99%). verkaufen sich immernoch deutlich besser als die entsprechenden Spielegenres der Konkurrenz EA. Am deutlichsten ist der Unterschied vermutlich bei den ganz "kleinen" Genres Simulation (4.77%), Shooter (3.9%), Fighting (2.99%) und Adventure (2%). Auch wenn diese sich nicht an der Exakt gleichen stelle in der Rangliste der Sales befinden hat der letzte Platz von Nintendo Strategy (1.53%) dennoch mehr als das 6 Fache an Sales als der von EA. Trotz das Nintendo mehr Total Sales hat als Electronic Arts ist dieser wert nicht 6 mal so groß sondern umfasst nichtmal das doppelte.

#### Anzahl

```{r plot(AmountGenrebyPublisherNintendo2), echo = TRUE, message=FALSE, results='markup', }

grouped <- vgsales  %>% 
  group_by(Publisher,Genre) %>% 
  summarize(Anzahl =n())  %>% 
  filter(Publisher == "Nintendo")


ax <- list(
  title = "Genre"
)

ay <- list(
  title = "Anzahl"

)

grouped%>%
  plot_ly() %>% 
  add_pie(values =~Anzahl,labels=~Genre,textinfo='label+percent',sort = TRUE,
           name="Anzahl nach Genre für Nintendo" ,colors = myPalette) %>% 
  layout(title="Anzahl nach Genre für Nintendo",
         xaxis = ax,
         yaxis = ay,
         showlegend = FALSE
         )

```

Im ersten Moment fällt direkt auf, dass der Ausschlag von Platform (15.9%) hier deutlich geringer ausfällt als noch in den Verkaufszahlen. Sowohl Role-Playing (15.1%) als auch Misc (14.1%) umfassen nur ein paar weniger Spiele. Auch das Mittelfeld umfasst mit Action (11.2%), Puzzle (10.5%) und Sports (7.82%) immernoch eine Relativ große Anzahl an Spielen. Selbst die hinteren Plätze mit Racing (5.26%), Adventure (4.98%) und Strategy (4.55%) sind nur knapp vor Simulation (4.13%), Shooter (3.7%) und Fighting (2.56%).


## {-}

Beim vergleichen der Werte von Nintendo wird einem aufmerksamen beobachter ziemlich schnell klar, dass Platform Spiele ein Kassenchlager sind. Nehmen diese nur 16% der spielereleases ein so bringen sie dennoch 24% der Sales ein. Gleiches Gilt für Sport games. 8% gegenüber 12%. Action (11% vs 7%), Misc (14% vs 10%) und Puzzle Games (10.5% vs 7%) sind jedoch nicht so erfolgreich. Die Frage woran dies liegen könnte wäre bestimmt auch eine interessante und etwas für einen [Ausblick in die Zukunft](#AusblickInDieZukunft)

***


# Ausblick in die Zukunft {#AusblickInDieZukunft}

Bei der Analyse des Datensatzes beziehungsweise der Entstandenen Grafiken sind sowohl dem Aufmerksamen leser als auch mir dem Ersteller einige weiter Ideen beziehungsweise weitere Ansätze gekommen die mit sicherheit interessant wären zu Verfolge. Einige dieser Beispiele habe ich im Folgenden als Ideen für Zukünftige Projekte Niedergeschrieben. 

* Beim Vergleich der allgemeinen [Game Sales](#VideoGameReleases) haben wir ausschläge Festgestellt die möglicherweise etwas mit bestimmten Videospielen oder andere äußeren Einflussfaktoren wie den einfacheren Zugriff auf Konsolen, eine breitere Akzeptanz für Videospiele oder die Entwicklung des Internets. Eine genauere Analyse der Ausschläge wäre dementsprechend ein Interessantes Thema.

* Interessant wäre Demtnsprechend auch eine genauere Analyse der Gamesales pro Jahr also in welchem Jahr welches Spiel wie oft gekauft wurde. Wurde Beispielsweise Tetris 1950 30 mal und 2015 300.000 mal verkauft. Dies geben die vorliegenden Daten jedoch leider nicht her also wäre ein andere Datensatz bzw weitere Daten notwendig.

* Im gleichen Gedankenschritt kommt eine analyse der Veränderungen im Kaufverhalten während der Cronapandemie und dem darauf folgenden Lockdown ist aber aus gleichem Grund leider nicht möglich.

* Das Gleiche Trifft auf die [Verkaufszhlentwicklung im laufe der Jahre](#SalesPerPlatform) mit einer genauern Analyse der verkauften Spiele pro Platform im laufe der Jahre zu.

* Desweiteren haben wir uns beim vergleich  der [Platformen](#Platformanalyse) die Frage gestellt wie sich die Spieleverkäufe pro Platform verhalten. Ein Vergleich ebenjener Daten währe dementsprechend interessant um zu klären ob sich Biespielsweise Nintendospiele besser auf Nintendo konsolen oder Sony Spiele besser auf der Playstation verkaufen. Dies benötigt jedoch vorallem aufgrund von Exklusivtiteln wie "The Legend of Zelda: Breath of the Wild" oder "God of War" extensive analysearbeit.

* In der [Publisheranalyse](#PublisherReleases) haben wir uns Anzahl der Spielereleases sowie Anzahl der Verkäufe verglichen. Interreant währe hier ein direkter 1 zu 1 vergleich möglicherweise sogar unter bezugnahme auf Platformen und Genres.

* Ein vergleich der Spiele nach Herstellerregion in der [Platformanalys](#Platformanalyse) wäre sehr interessant gewesen ist jedoch anhand des Datensatzes leider nicht möglich. Selbst eine annahme des Herkunftslandes anhand des Publishers ist nicht möglich da viele Publisher Studios in unterschiedlichsten Ländern und Regionen betreibt. Ubisoft hat beispielsweise Standorte in Paris, Mainz, New York und Singapur.

* Ein Regionaler vergleich anhand der Einwohnerzahlen einer Region bzw allgemein ein Vergleich der Spieleverkäufe mit der Entwicklung der Weltbevölkerung, welche sich seit 1980 [fast verdoppelt hat](https://de.statista.com/statistik/daten/studie/1694/umfrage/entwicklung-der-weltbevoelkerungszahl/).

Dies ist nur ein kleiner ausschnitt der schier unendlichen Möglichkeiten die einem bei der Analyse von den mittlerweile mehr als 4 mio Videospielen bleibt und das nur angenommen wir bleiben bei einem eher allgemeinerem Vergleich. Jedes dieser Videospiele hat vermutlich genug öffentliche Daten um eine Arbeit zu produzieren die ein vielfaches des Volumens dieser Arbeit, für welche mir nur knapp 70h zu Verfügung standen, hat.

# Aufgetretene Probleme {#AufgetreteneProbleme}

Nun aber zu dem unschönen teil einer jeder Arbeit. Den aufgetretenen Problemen, welche entweder nicht lösbar oder eine relativ starke überarbeitung der Ausarbeitung nachziehen würden.

* Das Erste und für den Aufmerksamen Leser, welcher sich vorallem die Line Plots im direkten vergleich angeschaut hat, offensichtliche. Der am Anfag erstellte Colorbrewer, welcher die Farben für die Grafiken liefert wird aus irgendeinam Grund nicht in jeder Grafik akzeptiert. Dies scheint hier rein zufällig zu sein und folgt keinem offensichtlichem Pattern. Der Einziger unterschied zwischen Filled Lines und Stacked Lines ist die Abwesenheit des *fill* parameters und stattdessen die verwendung von *stackgroup='one'*. Trotz diesen minimalen unterschiedes Akzeptiert die Filled Lines Grafik die Farbauswahl, Stacked Lines jedoch nicht.

* Ein weiterer mir unerklärlicher Fehler in der Dokumenterstellung ist die änderung des Formats nach dem importieren der Librarys. Es gibt keinen offensichtlichen Grund warum sich hier das Format ändern sollte auf einmal füllt der Text jedoch 100% des Bildschirms was z.T. zu sehr schwer zu leseneden Worten führt.

* Wie bereits in der Analyse der [Sales per Game per Year](#GenreSalesPerGamePerYear) festgestellt werden Spiele häufig auf mehreren Konsolen veröffentlicht. Eine zusammenfassung der Spiele zum Zweck der [Sales per Game](#VideoGameReleases) Analyse wäre dafür vonnöten.

* Bei Betrachtung des Codes, welcher die Grafiken erzeugt wird den meisten auffallen, dass oft doppelter Code durch verwendung in mehreren Diagrammen mit nur leichten Änderungen entsteht. Zusammenfassung ist hier durch die Nutzung von mehreren Data Frames und anwendung der jeweiligen durchaus möglich benötigt jedoch zum Teil gravierende überarbeitung der einzelnen Abschnitte.


* Ein Filtern der [Platformverkäufe pro Jahr](#SalesPerPlatform) nach total Sales wäre deutlich besser als ein Filtern nach den Sales in einem Jahr. Dies würde die Erzeugung eines zusätzlichen Data Frames benötigen wäre jedoch deutlich informativer als der aktuelle stand bei dem einige Jahre ganz aus dem Shema fallen.

* Das [Publischer Ranking nach Region](#PublisherRankingbyRegion) würde vermutlich vorallem die kleinere Region Japan einen deutlich anderen ausgang aufzeigen, sollte nicht nach der Anzahl der Spiele sondern beispielsweise dem wert der Verkaufszahlen gefiltert werde. Dies führt jedoch dazu, dass unterschiedlichen Publisher verglichen werden was den informationsgehalt minimieren würde.

* Bei der [Platformanalys](#Platformanalyse) wird den meisten, vorallem nicht Gamingversierten Lesern aufgefallen sein das Mobilegames im Datensatz komplett fehlen. Als die wohl am weit vertretenste und mittlerweile [umsatzstärkste](https://de.statista.com/infografik/22414/umsatz-ausgewaehlter-sektoren-der-unterhaltungsindustrie/) Platform beeinflusst dies den Datensatz ungemein. Allgemein sind nur knapp 16.000 der weltweit mehr als [3.3 mio]( https://www.statista.com/statistics/293304/number-video-gamers/#:~:text=In%20total%2C%20there%20were%20an,billion%20gamers%20across%20the%20globe) Videospiele in dem Datensatz vorhanden.

* Nun zu Vermutlich dem größten Problem neben den bereits vorherig etwähnten fehlenden Daten. Viele spiele werden auf verschiedenen Platformen, zum teil auf Konkurrenten oder nachfolgern rereleast. Das bedeutet das ein Spiel für mehrere Konsolen veröffentlicht wird. Diese Daten werdem im Vorhandenen Datensatznicht zusammengeführt und kommen dementsprechend mehrmals vor. Super Mario bros existiert beispielsweise 13 mal und Grand Theft Auto 4 belegt platz 52 auf der xboX360 und Platz 57 auf der PS3.

# Literatur und Quellenverzeichnis {#Literaturverzeichnis}

* [Logo der Arbeit](https://de.wikipedia.org/wiki/Video_Games#/media/Datei:Videogames1991-01_(logo).svg)
* [Datensatz](https://www.kaggle.com/datasets/gregorut/videogamesales )
* [plotly](https://plotly.com/r/)
* [Video Game Statistik 1](https://www.statista.com/statistics/293304/number-video-gamers/#:~:text=In%20total%2C%20there%20were%20an,billion%20gamers%20across%20the%20globe)
* [Vide Game Statistik 2](https://de.statista.com/infografik/22414/umsatz-ausgewaehlter-sektoren-der-unterhaltungsindustrie)
* [R_Markdown 1](https://bookdown.org/yihui/bookdown/)
* [R_Markdown 2](https://holtzy.github.io/Pimp-my-rmd/)
* [Github Verzeichnis inklusive kompletten Projektverlaufs](https://github.com/Jodsderechte/R_Studio_Default_workspace)
Created by Florian Reichle
flre0005@hs-kl.de